Mellom modellvektene: Slike ForgeCode viser at orkestreringen er det som teller
Mer enn modellvekter: ForgeCode viser hvorfor orkestreringen er kongen
AI-bransjen har jaget større modeller og tyngre vekter i et år. Men ForgeCode kaster et kaldt vann i ansiktet: orkestreringslaget ditt betyr mer enn du tror.
De tok Gemini 3.1 Pro, pakket den inn i ForgeCodes system – uten å røre modellen selv. Ingen finjustering, ingen nye parametere, ingen trening. Bare smartere verktøyhåndtering. Resultatet? Fra 55 % til 80,2 % på Terminal-Bench 2.0. 25 prosentpoeng bedre – kun ved å fikse rørene.
Sannheten: Skjemadesign slår rå modellkraft
For deg som bygger kodeagenter, er dette gull.
Når en LLM skal kalle et verktøy – lese fil, kjøre kommando, hente fra database – lager den JSON med forespørselen. Enkelt? Nei. De fleste rammeverk sender kompliserte, nestede skjemaer med tilfeldig rekkefølge. Modellen roter det til med feil parenteser eller manglende felt. Verktøykall feiler. Retry starter.
ForgeCode gjør skjemaene flate og sorterer feltene fast hver gang. Samme modell, men renere output og færre feil. Orkestreringen fikser det usynlige som ellers drukner i loggene dine.
Slikt praktisk triks havner sjelden i forskningsartikler. Men det leverer.
Parallell kjøring: 3–5 ganger raskere, uten fanfare
De fleste kodeagenter jobber i serie. Les fil, vent, les neste. Kjedelig kaskade i skyen. ForgeCode snur det: Uavhengige kall fyrer av samtidig med join_all().
Trenger agenten 10 konfigfiler først? Sekvensielle agenter trenger 10 runder. ForgeCode fikser det på én. For oppgaver som starter med filscanning – det meste – får du 3–5 ganger raskere kjøring.
Skaler det opp, så eksploderer det. CI/CD-agenter, kodegranskere, debuggere – alle stopper på fil-lesing. Parallellkjøring løfter fra "dev-leketøy" til "prod-ferdig".
Multi-agent-oppsett: Rekursjon uten begrensninger
ForgeCode har tre spesialagenter:
- Forge: Gjennomfører oppgaver
- Muse: Planlegger stegene
- Sage: Graver i kontekst og avhengigheter
Hver med egen modell, kontekstvindu og verktøy. Ikke revolusjonerende. Men orkestreringen er smart.
Sub-agenter popper opp parallelt. Én runde kan starte flere Forge-instanser på subtasks samtidig. Og de kan delegerere videre – rekursivt, så dypt som problemet krever.
Et tre, ikke en stige.
Kast komplekse oppgaver på det. Systemet bryter det ned naturlig og stopper når det ikke lønner seg mer.
De ærlige svakhetene
ForgeCode er ikke klar for all prod-bruk. Teamet er åpne om hullene:
- Ingen persistent minne: Økter er stateless. Kontekst forsvinner mellom kjøring.
- Ingen sjekkpunkter: Kræsjer midt i? Start på nytt. Null resume.
- Liten økosystem: Cline og OpenCode har mer community og integrasjoner.
Kritiske mangler for deploy. Men de er fixable – og ærlige.
Hva det betyr for din AI-stakk
ForgeCode banker inn poenget: Finn ytelse i orkestrering før du jager ny modell.
For startups med kodeagenter: Optimaliser rammeverkene dine nå. Rene skjemaer. Parallellkjøring. Rekursiv delegering. Det gir raske gevinster.
For hosting-plattformer (hei, oss): Agenter handler ikke bare om GPU og latency. Rammeverkene på toppen teller mer enn rå throughput.
Sjekk full benchmark på terminal-bench.com. Prøv ForgeCode via Tensorlake's Harness.
Modellen lever. Men orkestreringen stjal showet.
Vil du deploye AI-agenter på skalerbar hosting? NameOcean's cloud-plattform og Vibe Hosting AI-lag er laget for slikt. Ta en prat.