За пределами весов моделей: как ForgeCode доказывает силу оркестрации
За пределами весов моделей: ForgeCode показывает, почему оркестрация решает всё
В мире AI все последние месяцы гнались за огромными моделями, идеальными весами и свежими архитектурами. А ForgeCode только что вбросил правду: оркестрация моделей важнее, чем кажется.
Команда взяла Gemini 3.1 Pro и упаковала её в свою систему. Модель не трогали — без дообучения, без новых параметров, без переобучения. Просто перестроили взаимодействие с инструментами. Итог? На Terminal-Bench 2.0 результат подскочил с 55% до 80,2%. Чистые +25% за счёт умной "трубы".
Главный вывод: дизайн схем круче мощности модели
Для разработчиков, которые запускают кодовые агенты в прод, это ключевой момент.
Когда LLM зовёт внешний инструмент — читать файл, выполнять команду или дёргать базу, — она выдаёт JSON с запросом. Казалось бы, просто. Но в типичных фреймворках схемы запутанные, с вложенностью и случайным порядком полей. Модель лажает: лишние скобки, пропущенное поле, кривой JSON. Вызов инструмента срывается. Цикл повторов.
ForgeCode упрощает: делает схемы плоскими и фиксирует порядок полей в каждом запросе. Та же модель, но меньше ошибок форматирования. Оркестрация берёт на себя скучную работу, которая раньше тонула в логах ошибок.
Такие фишки не печатают в научных статьях — слишком приземлённо. Но они реально помогают.
Параллельное выполнение: ускорение в 3–5 раз, о котором молчат
Обычные кодовые агенты тянут всё по очереди. Прочитали файл — ждут, потом следующий. Каскад запросов в облаке. ForgeCode меняет подход: независимые вызовы инструментов летят разом через join_all().
Нужно глянуть 10 конфигов перед планированием? Последовательный агент сделает 10 раундов. ForgeCode — один. Для задач с разбором файловой системы (а их большинство) это 3–5× быстрее.
В масштабе эффект накапливается. Агенты в CI/CD, боты для код-ревью, автодебаггеры — все упираются в чтение файлов. Параллельность превращает "для тестов" в "для продакшена".
Мультиагентная схема: рекурсия без тормозов
ForgeCode идёт с тремя агентами:
- Forge: выполняет задачи
- Muse: планирует последовательности
- Sage: копает контекст и зависимости
У каждого своя модель, изолированный контекст и набор инструментов. Ничего революционного. Крутость в оркестрации.
Субагенты запускаются параллельно, так что один цикл оркестратора может породить кучу Forge на подзадачи. И субагенты порождают субсубагентов — рекурсия идёт столько уровней, сколько нужно задаче.
Это дерево, а не лестница.
Бросьте сложную проблему — система сама разложит её на части. Делегирование тормозит, когда оно бесполезно, а не по искусственному лимиту.
Честные минусы
ForgeCode не рядится в идеал для всех сценариев. Команда прямо говорит о слабостях:
- Нет постоянной памяти: сессии без состояния, контекст теряется между запусками.
- Без чекпоинтов: упала оркестрация посреди — начинай заново.
- Маленькая экосистема: Cline и OpenCode впереди по комьюнити и интеграциям.
Для продакшена это серьёзно. Но проблемы решаемые, и подход честный.
Что это значит для твоего AI-стеки
ForgeCode учит: для прокачки AI-инструментов для разработки копай в оркестрацию, а не в апгрейд моделей.
Стартапам и командам с кодовыми агентами — зелёный свет на тюнинг своих фреймворков, без ожидания следующей модели. Плоские схемы. Параллель. Рекурсивная делегация. Выигрыш накапливается быстро.
Для облачных хостингов (привет, это про нас) — намёк: хостинг агентов не сводится к GPU и латентности. Фреймворки на твоей инфраструктуре важнее сырой мощности моделей.
Детали бенчмарков — на terminal-bench.com. Хочешь потестить ForgeCode? Инструкции в Tensorlake's Harness.
Модели живы. Но оркестрация только что украла главный роль.
Хочешь запустить AI-агентов на мощном scalable хостинге? Платформа NameOcean и Vibe Hosting AI layer заточены под такие нагрузки. Давай обсудим.