Konec jednorázovým výstřelům: Inteligentní shrnutí mění AI generování kódu od základů
Za hranicí jednorázových pokusů: Jak chytré shrnutí mění AI kódování
Problém, o kterém se nemluví
Všichni slyšíme: stačí víc výkonu a AI zvládne cokoli. Funguje to na jednoduché úkoly. Napiš báseň? Spusť model třikrát, vyber nejlepší. Oprav chybu? To taky jde.
Ale teď si představte složitý software projekt. Agent musí řešit krok za krokem. Každé rozhodnutí vede k novým větvím, chyby se hromadí, částečné pokroky se musí ukládat. Tu klasická strategie selže.
Frustrace? Agent prochází pěti cestami, narazí na slepé uličky, vrátí se zpět a získá cenné lekce. Spusťte to znovu od nuly – a všechno se ztratí. Jako když programátor řeší problém dvakrát bez poznámek.
Klíčový nápad: Jak si to agent zapamatuje
Problém není v počtu pokusů. Je v tom, jak si agent pamatovat, co zjistil.
Místo černé skatule z každého pokusu vytvořte strukturované shrnutí. Žádný dlouhý záznam, žádné jen čísla. Něco uprostřed: kompaktní info o klíčových objevech, bez zbytečného balastu.
Agent se pak podívá zpět: „Minule jsem zkusil mutace a narazil na tuhle chybu. Teď jdu jinou cestou.“ Brute force končí, začíná inteligence.
Jádro: škálování pro dlouhé úkoly je o reprezentaci, výběru a opětovném použití. Ne o syrovém výkonu.
Dvě cesty k lepším výsledkům: Paralelně i postupně
Tento přístup nabízí dvě metody, které se doplňují.
Paralelní škálování s rekurzivním turnajem
Spusťte hned několik agentů najednou. Každý prozkoumává jinou větev. Jak vybrat nejlepší z deseti složitých stop?
Rekurzivní turnajové hlasování (RTV) to zvládne chytře. Rozdělte pokusy do malých skupin, porovnejte je dvěma, vítězové jdou dál. Jako turnaj v tenise, ale pro kód. Méně výpočtů, stejná kvalita.
Postupné škálování s destilací znalostí
Po každém pokusu vytáhněte lekce: co fungovalo, kde selhalo, co slibovalo úspěch. Další pokus pak startuje s tímto shrnutím. Není to studený start.
Jako když vývojář čte komentáře k pull requestu před dalším kolem. Nové pokusy profitují z minulosti, bez rigidnosti.
Co to znamená v praxi
Čísla mluví jasně. Na špičkových agentech:
- Claude na SWE-Bench Verified poskočil z 70,9 % na 77,6 % úspěšnosti
- Úkoly v terminálu z 46,9 % na 59,1 %
Žádné drobné vylepšení. Skutečný posun na hranici možností – díky chytřejšímu využití, ne větším modelům.
Hlubší důsledek
Tohle mění pohled na škálování AI. Dlouho platilo: větší model, víc parametrů, víc dat. Stále to funguje.
Ale u agentů v otevřených, dlouhých úkolech – kódování, správa systémů, složité uvažování – velikost rychle ztrácí sílu. Klíčem je učení z pokusů a stavba na nich.
Architektura inference rozhoduje. Malý model s dobrou pamětí a reflexí překoná velkého samotáře.
Co to znamená pro vývojáře a startupy
Pokud stavíte na AI agentech – třeba přes NameOcean Vibe Hosting nebo vlastní nasazení – tohle je zlomový bod:
Design agenta bije velikost modelu. Agent se shrnutím tratí brute force s obrem.
Paměť musí být strukturovaná. Agent má uvažovat o minulosti, ne jen tastat vpřed.
Jsme na začátku. RTV a destilace fungují, ale nejsou běžné. Kdo začne brzy, má výhodu.
Optimalizace inference je nová hra. Když modely stagnují, efektivita za běhu rozhodne.
Co přijde dál
Konec éry „větší je lepší“. Nahrazuje ji chytřejší využití výkonu, co máme.
Pro AI v kódování to znamená: úspěšní agenti nebudou ti největší. Budou ti, co rychle učí z chyb, pamatují pokusy a uvažují o nich.
To je jiný druh výzvy. A otevírá dveře k věcem, co nepotřebují GPT-7 nebo Claude-5.
Další generace kódovacích agentů bude stát na paměti a úsudku. To je opravdu zajímavý problém.