От еднократни проби към умни резюмета: Как AI променя завинаги генерирането на код
По-умни резюмета: Как революционизират генерирането на код с AI
Проблемът, който никой не обсъжда
Чувал си за мантрата: увеличи мощността и AI ще реши всичко. Работи за прости задачи. Генерирай стих – пусни три пъти и вземи най-доброто. Поправи бъг? Все още ок.
А сега сложна задача – AI агент, който самостоятелно решава многостъпков софтуер проект. Решенията водят до клонки, грешките се трупат, напредъкът е частичен. Тук класическото мащабиране рухва.
Фрустрацията е ясна: агентът не дава просто отговор. Той създава цяла траектория – решения, опити с код, грешки, уроци. Пробва пет подхода, забива се в ъгъл, връща се назад и научава. Но ако го стартираш от нулата, всичко изчезва.
Като да караш програмист да решава пак, без бележките си.
Ключът: Правилното представяне на знанията
Блокът не е в повече опити – а в запаметяването на наученото. Ето къде е магията.
Забрави черните кутии. Вместо това компресирай всеки опит в структурирано резюме. Не дословен запис (прекалено дълго), не само числа (прекалено грубо). Нещо средно – компактно, с ключовите прозрения, без да се давиш в логове.
Агентът гледа назад: "Миналия път пробвах мутации и налетях на този модел грешки. Сега опитвам друго." Това е разликата между сила и ум.
Същността: мащабиране на дълги задачи е за представяне, избор и реупотреба. Не за чиста мощ.
Два начина за мащабиране: Paralелен и последователен
Рамката предлага два подхода, които си допълват:
Паралелно мащабиране с рекурсивно турнирно гласуване
Пусни няколко агента наведнъж, всеки по различен път. Проблем: как да сравниш десет траектории? Като да четеш десет романа.
Recursive Tournament Voting (RTV) го решава умно. Групирай опитите, сравнявай по двойки, победителите отиват напред. Турнирна скоба за код. По-малко ресурси, същото качество.
Последователно мащабиране чрез дестилация на знания
След всеки опит – извлечи уроците: какво стана, къде се провали, кои пътища са обещаващи. Следващият старт не е от нулата – той е настроен към резюметата.
Като програмист, който чете коментарите си преди следващия ъпдейт. Контекст без окови.
Резултати в практиката
Числа не лъжат. Приложено върху топ агенти:
- Claude на SWE-Bench Verified: от 70.9% на 77.6% успех
- Задачи в терминал: от 46.9% на 59.1%
Не са дребни подобрения. Това са скокове при най-добрите модели – от умно мащабиране, не от по-големи.
По-дълбокия смисъл
Това променя всичко за мащабиране на AI. Досега: по-големи модели, повече данни. Работи.
Но за агенти в отворени, дълги задачи – код, администриране, сложни разсъждения – размерът бързо губи сила. Блокът е в учи от опита и гради върху него.
Архитектурата на изпълнението е ключът. Малък модел с добра памет и рефлексия бие голям в изолация.
Какво значи за разработчици и стартъпи
Ако строиш с AI агенти – на NameOcean's Vibe Hosting или собствени – ето сигнала:
Дизайнът на агента е по-важен от размера. Добро резюме бие brute force с голям модел.
Структурирана памет е задължителна. Агентът трябва да мисли за минали опити, не да блуждае.
Още сме в началото. RTV и дестилация работят, но не са стандарт. Ранен старт = предимство.
Оптимизация по време на изпълнение е новото. Когато моделите стагнират, инженерството печели.
Напред
"По-голямото винаги е по-добро" отстъпва на по-умни начини да използваме мощността. Тонка, но огромна промяна.
За AI кодиране и автономни системи агенти успяват не с най-много параметри, а с най-бързо учене от провали, запаметяване и саморефлексия.
Нова оптимизация. Отваря врати без GPT-7 или Claude-5.
Бъдещите кодови агенти ще блестят с памет и преценка. Много по-интересно предизвикателство.