Тестове на локални LLMs на бойна поле: Ръководство за разработчици с реални кодови бенчмаркове
Голямата предизвикателност за LLM в кодиране
В света на AI-разработката всеки обещава, че неговият модел е най-добрият. Но как да проверим? Бенчмарковете са разхвърляни, различни и често попадат в тренировъчните данни. Затова е страхотно да виждаме реални, повтаряеми тестове. Те проверяват какво наистина брои: писане на код, поправяне на грешки и пускане на функции.
Какво точно тестваме
Представете си: 17 квантизирани езикови модела, 5 фреймуърка за кодиращи агенти (Aider, Claude Code, OpenCode, Pi, Qwen CLI) и 16 истински задачи по софтуерна инженерия. От Python и PyTorch, през JAX, C++, Rust до SQL. Това прави 1360 самостоятелни теста – всички в изолирани среди, оценени от скрити тестови комплекти, които агентите не виждат.
Този подход е близък до реалността. Агентите работят в отделни работни пространства. Нямат достъп до критериите за оценка. Задачите варират – от леки (рекурсивни SQL заявки) до тежки (сложни оптимизации в PyTorch с rope embeddings и grouped query attention).
Това е далеч от академичните бенчмаркове, където тренировъчните и тестовите данни се сливат.
Резултатите, които всички искат
Най-големият успех: Qwen 3.6-27B с Pi harness – перфектни 16/16 задачи, по около 207 секунди всяка. Единствената комбинация без провали.
Но перфекцията не е винаги най-полезна. Ако търсите бързина, gpt-oss-120b в MXFP4 с Pi постига 15/16 за 34 секунди на задача. Шест пъти по-бързо от идеалния – за един пропуск. За ежедневна работа това често е по-добър избор.
За средни плътни модели Qwen 3.6-35B-A3B с Qwen harness държи 15/16 за 108 секунди. Идеална баланс – сила без огромни ресурси.
Защо това е важно за твоя стек
При избор на инфраструктура за AI-подпомагане на разработка – локални агенти, преглед на PR или генериране на тестове – тези данни влияят на разходите и скоростта:
- Закъсненията се трупат. Ако моделът отнема 3 минути на задача и го пуснете 20 пъти дневно, губите час. Всяка секунда брои.
- Не е нужно 100%. 94% успех с 6 пъти по-малко време често дава по-добър опит.
- Фреймуъркът е ключов. Не става дума само за модела – как агентът комуникира с LLM определя успеха.
Защо този бенчмарк издържа
Повечето тестове умират, като попаднат в тренировъчни данни и се превърнат в тест за памет. Тук задачите и оценителите остават тайна – за да не се "изгълчат" от бъдещи модели.
Публикуват се само агрегирани резултати, индивидуални оценки и код за графики. Достатъчно за решения, но не за манипулации.
Разнообразието по трудност е важно. Лесни задачи не разграничават. Тежките – като pt3_rope_gqa и jax1_complex_lp – показват кой е топ.
Какво значи за NameOcean
С Vibe Hosting на NameOcean и AI инструменти за разработка, тези тестове помагат да изберете:
- Кои локални модели да хоствате за генериране на код в твоята инфраструктура.
- Къде да прехвърлите от локално към cloud API.
- Колко хардуер ви трябва за продуктивност.
Един M3 Max с 128GB RAM мина всички 1360 теста. Доказва, че с модерно железо можеш да експериментираш локално, без enterprise ниво.
Честната оценка
Авторът ги нарича "предварителни" – това е нужната честност. Резултатите може да се променят при повторения. Но моделите са стабилни в Q4 и Q8 квантизация. Не е абсолютна истина, а полезен поглед.
Това е свеж, практически тест без реклами. Само задачи, модели, фреймуъркове и честна оценка.
Пейзажът на кодиращите LLM се променя бързо – бенчмаркове от преди 6 месеца са остарели. Този подход с отворени резултати и скрити задачи може да стане стандарт.
Ако строите AI инструменти или тествате модели, копирайте го: изолирани тестове, скрити критерии, фокус върху реални процеси.
Победителите не са винаги най-големите. Понякога са тези, които не пречат и оставят разработчиците да работят.