Från engångssummor till smarta superkrafter: Så förändrar AI-kodspråkets framtid
Bortom engångslösningar: Så revolutionerar smarta sammanfattningar AI-kodning
Problemet som få pratar om
Alla snackar om att skala upp beräkningskraften så löser AI tuffare uppgifter. Det funkar ofta. Be en LLM skriva en dikt, kör den tre gånger och välj den bästa. Fixa en bugg? Inga problem.
Men ge den en komplex mjukvaruutmaning med flera steg – där val leder till kedjereaktioner, fel byggs på varandra och delsegrar räknas – då kraschar den gamla strategin.
Frustrationen? En kodningsagent skapar inte bara ett svar. Den bygger en hel bana av beslut, observationer, kodförsök, fel och framsteg. Agenten testar fem vägar, kört fast, backat och lärt sig av misslyckanden. Starta om från noll? All kunskap försvinner.
Som att be en utvecklare lösa samma problem två gånger utan anteckningar.
Nyckeln: Rätt representation
Bottlenecken är inte fler försök – det är att minnas vad du lärt. Här ligger magin.
Glöm svarta lådor per försök. Komprimera istället varje runda till en strukturerad sammanfattning. Inte full logg (för lång), inte bara siffror (för tunt), utan en smart mellanväg som fångar kritiska insikter utan onödigt brus.
Tänk om agenten kunde kolla bakåt: "Mutationer kraschade på det felet sist. Prova en annan approach nu." Skillnaden mellan brute force och smartness.
Poängen: Skalning vid långa uppgifter handlar om representation, urval och återanvändning. Inte bara rå kraft.
Två skalningsmetoder: Parallell och sekventiell
Rammeverket ger två metoder som kompletterar varandra:
Parallell skalning med rekursiv turneringsröstning
Kör flera agenter parallellt, varje på sin väg. Svårt? Jämföra dussintals banor är som att läsa romaner för att hitta vinnaren.
Rekursiv Tournament Voting (RTV) fixar det. Gruppera försöken i små fighter, jämför parvis, låt vinnarna slåss vidare. Som en bracket-turnering för kod. Mindre compute, samma kvalitet.
Sekventiell skalning via kunskapsextraktion
Iterativt: Efter varje runda, destillera lärdomar – vad funkade, vad dog, vad lovade men kraschade. Nästa försök bygger på de sammanfattningarna, utan att låsas fast.
Som en utvecklare som läser sina egna PR-kommentarer innan ny iteration.
Resultat i praktiken
Siffrorna imponerar. På toppmodeller:
- Claude på SWE-Bench Verified från 70,9% till 77,6% lyckande
- Terminaluppgifter från 46,9% till 59,1%
Inga små steg. Reella hopp på gränsmodeller – tack vare smartare skalning, inte större AI.
Den stora skiftet
Det här utmanar hela skalningsidén. Länge har det handlat om större modeller, fler parametrar, mer data. Det funkar.
Men i öppna, långa uppgifter som kodning, admin eller resonemang tappar modellstorlek fart snabbt. Bottlenecken blir förmågan att lära av erfarenheter och bygga vidare.
Inference-arkitektur avgör. En mindre modell med bra minne och reflektion slår en stor i ensamhet.
Vad det betyder för dig som utvecklare eller startup
Bygger du med AI-agenter – via NameOcean's Vibe Hosting eller egna setup? Det här är en vändpunkt:
Agentdesign slår modellstorlek. Bra sammanfattningar vinner mot brute force med större AI.
Strukturerat minne är minimikrav. Agenten måste reflektera över tidigare försök.
Tidig fas. RTV och destillation funkar redan, men inte vardag. Första adoptörer vinner.
Inference-optimering tar över. När modeller planar ut driver runtime-effektivitet framgången.
Framåt
"Bigger is better" ebbar ut till smartare compute-användning. Subtilt men djupt.
För AI-kodning och autonoma system: Vinnarna blir inte de största. De som lär snabbast av fel, minns försök och dömer egna banor.
En ny typ av optimering. Öppnar dörrar utan GPT-7 eller Claude-5. Nästa kodagenter definieras av minne och omdöme. Mycket roligare utmaning.