Mahalliy LLM-larni sinovdan o'tkazamiz: Dasturchilar uchun real kodlash benchmarklari bo'yicha qo'llanma

May 03, 2026 local-llms ai-benchmarking coding-agents llm-quantization developer-tools machine-learning software-engineering llama-cpp vibe-hosting

Katta LLM Kodlash Sinovi

AI olamida bir narsa aniq: har kim o'z modelini "eng yaxshisi" deb da'vo qiladi. Lekin qaysi benchmark orqali o'lchashni hech kim bilmaydi. Benchmarklar turli joylarda tarqalgan, mezonlari boshqacha va ko'pincha o'quv ma'lumotlariga tushib qoladi. Natija – foydasiz bo'lib qoladi.

Shu sababli, dasturchilar haqiqiy, takrorlanadigan benchmarklar yaratayotgani quvonarli. Bu sinovlar kundalik ishimizga mos: kod yozish, xatolarni tuzatish va yangi funksiyalarni chiqarish.

Bu Sinov Nima Tekshiradi?

Tasavvur qiling: 17 ta kvantlangan til modelini 5 ta kodlash agent frameworki (Aider, Claude Code, OpenCode, Pi, Qwen CLI) bilan birlashtirib, 16 ta haqiqiy dasturiy ta'minot vazifasiga qo'yasiz. Python, PyTorch, JAX, C++, Rust va SQL bo'yicha. Jami 1360 ta alohida ish – hammasi sandboxda, yashirin testlar bilan baholanadi. Agentlar testlarni ko'rmaydi.

Bu usulning go'zalligi – haqiqatga yaqin. Agentlar izolyatsiyada ishlaydi. Vazifalar oddiydan (rekursiv SQL so'rovlari) murakkabgacha (PyTorch optimizatsiyasi, rope embeddings va grouped query attention).

Akademik benchmarklardan farqi shundaki, bu yerda o'quv va test ma'lumotlari aralashmaydi.

Eng Muhim Natijalar

Asosiy yangilik: Qwen 3.6-27B Pi bilan 16/16 mukammal natija berdi, har vazifa 207 soniyada. Butun sinovda faqat shu kombinatsiya hammasini yengdi.

Lekin mukammallik har doim ham amaliy emas.

Tezlik muhim bo'lsa, gpt-oss-120b MXFP4 bilan Pi 15/16 ni 34 soniyada bajardi. Bu mukammal modeldan 6 barobar tez. Bitta xato uchun real ishlarda yaxshiroq tanlov.

O'rta o'lchamli modellar uchun Qwen 3.6-35B-A3B Qwen harness bilan 15/16 ni 108 soniyada saqlaydi. Ko'p jamoalar uchun ideal: kuchli, resurs talab qilmaydi.

Sizning Stackingiz Uchun Nima Degani?

AI yordamida kodlash infratuzilmasini tanlashda (lokal agentlar, PR review, test generatsiya) bu raqamlar to'g'ridan-to'g'ri xarajat va tezlikka ta'sir qiladi:

Kechikishlar to'planadi. Model vazifaga 3 daqiqa sarflasa, kuniga 20 marta ishlatilsa – soat yo'qotiladi. Har soniya hisobga olinadi.
Mukammallik shart emas. 94% tezroq ishlasa, 100% dan yaxshi tajriba beradi.
Harness model kabi muhim. Faqat model almashtirib bo'lmaydi – agent va LLM suhbati frameworkga bog'liq.

Nega Bu Benchmark Ishonchli?

Ko'p benchmarklar o'quv ma'lumotlariga tushib, yodlash sinoviga aylanadi. Bu sinov maxfiy: vazifa promptlari va baholash yashirin, model o'qitishda ishlatilmaydi.

Oshkor qilingan: umumiy natijalar, alohida ballar va grafik kodlari. Qaror qabul qilish uchun yetarli, o'yinchi bo'lish uchun emas.

Qiyinlik darajasi farqlaydi. pt3_rope_gqa va jax1_complex_lp kabi vazifalar modellar orasidagi farqni ko'rsatadi. Oson vazifalar hech narsa bermaydi. Eng qiyin 6 tasi eng yaxshilarni ajratadi.

NameOcean Uzerida Qurish Uchun Foydasi

NameOcean Vibe Hosting va AI kodlash vositalaridan foydalansangiz, bu benchmarklar yordam beradi:

Qaysi lokal modellarni o'z hostingda saqlash
Lokal va cloud API o'rtasidagi chegara
Necha hardware kerakligi mahalliy sinovlar uchun

Barcha 1360 testni bitta M3 Max (128GB RAM) bajardi. Zamonaviy apparat bilan jiddiy lokal LLM tajribalari mumkin, korporativ infraga hojat yo'q.

Rostgo'y Xulosa

Muallif buni "dastlabki natijalar" deb ataydi – shunday halollik kerak. Qayta sinovlarda o'rinlar o'zgarishi mumkin. Q4 va Q8 kvantlashda naqshlar saqlangan, lekin bu yakuniy haqiqat emas.

Bu – haqiqiy ishlaydigan narsalarni tekshirish. Marketing yo'q, shishirilgan da'vo yo'q. Faqat vazifalar, modellar, harnesslar va ishonchli test.

Kodlash LLM sohasi tez o'zgaradi – 6 oylik benchmarklar eskiradi. Maxfiy vazifalar, ochiq natijalar bilan shunday sinovlar kerak bo'ladi.

AI vositalarini chiqarsangiz ya da o'z stackingiz uchun model tanlasangiz, shunday yondashuvni nusxa qiling. Sandbox quring. Testlarni yashiring. Real ish jarayonlarini o'lchang.

G'olib modellar har doim eng katta parametrlu emas. Ba'zan ular dasturchiga to'sqinlik qilmay, kod chiqarishga yordam beradiganlar.

Read in other languages:

RU BG EL CS TR SV FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN