Yhden laukauksen sijaan: Älykkäät yhteenvedot mullistavat AI-koodinluonnin
Yhden yrityksen sijaan: Älykkäät yhteenvedot mullistavat AI-koodigeneraatiota
Ongelma, josta kukaan ei puhu
Olet varmaan kuullut mantran: kasvata laskentatehoa, niin AI ratkaisee vaikeammatkin tehtävät. Se pitää paikkansa monissa tapauksissa. Pyydä LLM:ltä runo, ja kolmen yrityksen parhaan poimiminen toimii. Bugin korjaus? Vielä helppoa.
Mutta anna sille monivaiheinen ohjelmointitehtävä, jossa päätökset haarautuvat, virheet leviävät ja osittainen edistys ratkaisee – silloin perinteinen skaalaus pettää.
Ärsyttävää on tämä: koodaava agentti ei tuota pelkkää vastausta. Se luo kokonaisen polun päätöksistä, havainnoista, koodikokeiluista, virheistä ja edistymisestä. Agentti saattaa testata viisi lähestymistapaa, törmätä umpikujaan, perääntyä ja oppia epäonnistumisesta. Uusi yritys alusta tyhjästä hukkaa kaiken oppimisen.
Se on kuin kehittäjältä pyytäisi samaa ratkaisua kahdesti ilman muistiinpanoja.
Ratkaisu: Muotoilu ratkaisee
Todellinen pullonkaula ei ole uusien yritysten generointi – se on oppimisen muistaminen. Tässä piilee voima.
Unohda mustat laatikot. Mitä jos jokainen yritys tiivistyy strukturoituun yhteenvetoon? Ei pelkkä loki (liian pitkä), ei vain luvut (liian karkea), vaan sopiva paketti: olennaiset oivallukset ilman turhia detaljeja.
Kuvittele agentin miettivän: "Edellisellä kerralla mutation korjaukset epäonnistuivat tuohon virhemalliin. Nyt kokeilen muuta lähestymistapaa." Siinä ero raakaan voimaan ja älyyn.
Ydinajatuksena on: pitkien tehtävien skaalaus agenttitehtävissä on muotoilun, valinnan ja uudelleenkäytön ongelma. Ei pelkkä laskentateho.
Kaksi skaalaustapaa: Rinnakkain ja peräkkäin
Tämä malli tuo kaksi toisiaan täydentävää keinoa:
Rinnakkaiskaalaus rekursiivisella turnausäänestyksellä
Ajattele useita agenteja juoksemassa samanaikaisesti eri poluilla. Ongelma: kymmenen monimutkaista polkua on vaikea vertailla.
Rekursiivinen turnausäänestys (RTV) hoitaa asian tyylikkäästi. Jaottele yritykset pieniin ryhmiin, vertaa paritellen ja kavennna kenttää kierros kierrokselta. Kuten turnaus, mutta koodiratkaisuille. Valinta vie vähemmän tehoa säilyttäen laadun.
Peräkkäiskaalaus tietotiivistyksellä
Toinen tapa on iteratiivinen. Jokaisen yrityksen jälkeen poimi opit: mikä onnistui, mikä kaatui, mitkä polut lupaavia. Seuraava yritys saa näiden yhteenvetojen ehdollistuksen.
Kuten kehittäjä lukee omat PR-kommenttinsa ennen uutta yritystä. Uusi iterointi hyötyy taustasta ilman jäykkyyttä.
Mitä tämä tarkoittaa käytännössä
Luvut puhuvat puolestaan. Tutkijat testasivat tätä huippumalleilla:
- Claude SWE-Bench Verifiedissä nousi 70,9 %:sta 77,6 %:iin
- Terminaalitehtävien onnistumisprosentti parani 46,9 %:sta 59,1 %:iin
Ei pikkuloikkia. Merkittäviä parannuksia jo valmiiksi huippumalleissa – fiksuimmalla skaalauksella, ei isommilla malleilla.
Syvempi merkitys
Tämä muuttaa AI-skaalauksen ajattelua. Vuosia korostettiin isoja malleja, parametreja ja dataa. Se toimii.
Mutta avoimissa, pitkissä tehtävissä – kuten koodaus, systeemiadmin tai monimutkainen päättely – raaka koko tuottaa heikosti. Pullonkaula siirtyy: kokemuksesta oppiminen ja aiempien yritysten hyödyntäminen.
Toteutusarkkitehtuuri ratkaisee. Pieni malli hyvällä muistilla ja reflektiolla voittaa isomman yksinään.
Hyödyt kehittäjille ja startuppeille
Jos rakennat AI-agenteilla – oli se NameOceanin Vibe Hostingin kautta tai custom – tämä on käännekohta:
Agentin muotoilu yli mallin koon. Hyvin rakennettu agentti tiivistyksillä voittaa brute-forcen isommalla mallilla.
Rakennettu muisti on minimivaatimus. Agentin täytyy pohtia aiempia yrityksiä, ei kompastella sokkona.
Alkuvaihetta eletään. RTV ja tiivistykset toimivat, mutta eivät ole arkipäivää. Varhainen käyttö on etu.
Inferenssi-optimointi on uusi rintama. Mallikehitys hidastuu, inferenssin tehokkuus voittaa.
Tulevaisuus
"Bigger is better" -aika vaihtuu: fiksumpiin tapoihin käyttää nykyistä tehoa. Hieno mutta iso muutos.
AI-avusteisessa kehityksessä ja autonomisissa koodisysteemeissä menestyvät agentit eivät ole parametrien kuninkaita. Ne oppivat nopeimmin epäonnistumisista, muistavat yrityksensä ja pohtivat niitä.
Se on erilainen optimointiongelma. Ja se avaa ovia ilman GPT-7:ää tai Claude-5:ttä.
Seuraava koodausagenttien sukupolvi syntyy muistista ja harkinnasta. Paljon kiinnostavampi haaste.