Локальные LLM на пытке: как разработчику тестировать их кодинг в реальных сценариях
Великий челлендж LLM для кодинга
В мире ИИ все хвалят свои модели как "самые крутые". Но как их сравнивать? Бенчмарки разбросаны по статьям, критерии разные, а со временем они попадают в тренировочные данные и теряют смысл.
Поэтому так радуют тесты от разработчиков. Они создают реальные, повторяемые бенчмарки для повседневной работы: кодинг, фикс багов, релиз фич.
Что именно проверяли
Возьмите 17 квантизованных LLM, добавьте 5 фреймворков для кодинг-агентов (Aider, Claude Code, OpenCode, Pi, Qwen CLI). Бросьте их на 16 задач по software engineering: Python, PyTorch, JAX, C++, Rust, SQL. Итого 1360 запусков. Всё в песочницах, с оценкой по скрытым тестам, которых агенты не видели.
Ключ в реализме. Агенты в изоляции, без подсказок. Задачи от простых (рекурсивные SQL-запросы) до жёстких (оптимизации PyTorch с rope embeddings и grouped query attention).
Это не как академические бенчмарки, где тесты и данные сливаются.
Результаты, которые все ждут
Топ: Qwen 3.6-27B с Pi набрал идеальные 16/16. Время на задачу — около 207 секунд. Единственный перфект в матрице.
Но идеал не всегда удобен.
Для скорости берите gpt-oss-120b в MXFP4 с Pi: 15/16 за 34 секунды. В 6 раз быстрее идеала, с одним фейлом. В реальной разработке это выгоднее.
Для средних dense-моделей подойдёт Qwen 3.6-35B-A3B с Qwen harness: 15/16 за 108 секунд. Золотая середина — мощь без перегрузки железа.
Зачем это вашему стеку
При выборе инфраструктуры для AI-кодинга (локальные агенты, ревью PR, генерация тестов) цифры напрямую влияют на costs и скорость:
- Задержки накапливаются. 3 минуты на задачу × 20 раз в день = час потерянного времени. Каждая секунда в счёт.
- 100% не всегда нужно. 94% за 6x скорость лучше, чем перфект с тормозами.
- Harness важен не меньше модели. Фреймворк, управляющий диалогом агента и LLM, решает успех.
Почему этот бенчмарк крут
Обычные тесты умирают от попадания в тренинговые данные — становятся тестом на память. Здесь задачи и градеры приватны, модели не смогут их "выучить".
Публикуют агрегированные результаты, scores по ячейкам и код для графиков. Достаточно для решений, мало для читерства.
Задачи разной сложности. Лёгкие ничего не показывают. Тяжёлые, как pt3_rope_gqa или jax1_complex_lp, разделяют лидеров и остальных.
Как это поможет с NameOcean
Если вы на Vibe Hosting от NameOcean с AI-инструментами для dev, бенчмарк подскажет:
- Какие локальные модели хостить для генерации кода.
- Где граница между локальным мышлением и облачными API.
- Сколько железа нужно для продуктивности.
Все 1360 тестов прошёл один M3 Max с 128 ГБ RAM. Обычный девайл тянет серьёзные эксперименты без enterprise-ферм.
Честный вердикт
Автор назвал это "предварительными находками" — и это правильно. При перезапуске топы могут сдвинуться. Паттерны стабильны в Q4/Q8, но не догма.
Зато это свежий взгляд на то, что работает. Без маркетинга и понтов. Просто задачи, модели, harness и честный тест.
Ландшафт кодинг-LLM меняется вихрем — бенчмарки полгода назад устарели. Такой подход с открытыми результатами и скрытыми тестами — то, что нужно полю.
Если строите AI-dev инструменты или выбираете модели, копируйте: песочницы, скрытые критерии, фокус на реальных workflow.
Победители — не всегда самые большие по параметрам или с шоу-демо. Часто те, кто не мешает dev'ам штамповать код.