Lokális LLM-ek kemény teszten: Fejlesztői útmutató valós kódolási benchmarkokhoz
Nagy LLM Kódolási Teszt
Az AI-fejlesztések körül manapság mindenki azt harsogja, hogy a saját modellje a király. De senki sem tud megegyezni a mérésről. A benchmarkok szanaszét hevernek cikkekben, más-más szabályokkal, ráadásul gyakran bekerünek a tréningadatokba, így idővel értéktelenek lesznek.
Ezért öröm látni, ha valaki valódi, megismételhető teszteket rak össze. Olyanokat, amik a mindennapi munkára mennek: kódírás, hiba javítás, funkciók kiadás.
Mit vizsgáltak pontosan?
Képzeld el: 17 különböző kvantizált nyelvi modellt vesznek, 5 kódoló ügynök keretrendszerrel párosítanak (Aider, Claude Code, OpenCode, Pi, Qwen CLI), és rájuk uszítják 16 igazi szoftverfejlesztési feladatot. Python, PyTorch, JAX, C++, Rust, SQL. Ez 1360 külön futás – mind sandboxban, rejtett tesztekkel, amiket az ügynökök sosem látnak.
Ez a módszer igazi munkát utánoz. Az ügynökök elkülönített térben dolgoznak, vakon a pontozásra. A feladatoktól skálázódnak: egyszerű rekurzív SQL-től a kemény PyTorch-optimalizálásig, rope embeddinggel és grouped query attentionnel.
Ez messze áll az akadémiai benchmarkoktól, ahol a tréning- és tesztadatok egyre közelebb kerülnek egymáshoz.
A legfontosabb eredmények
A győztes: Qwen 3.6-27B a Pi kerettel 16/16-ot hozott, feladatontul átlag 207 másodpercben. Ez az egyetlen kombó, ami mindent letarolt.
De a tökéletesség nem mindig menő.
Ha a sebesesség a lényeg, a gpt-oss-120b MXFP4-ben Pi-vel 15/16-ot ér el 34 másodpercben. Hatvanszor gyorsabb, mint a tökéletes, csak egy bukóval. Fejlesztésben ez gyakran jobb üzlet.
Közepes méretű modellekre vadászva a Qwen 3.6-35B-A3B Qwen kerettel 15/16-ot tart 108 másodpercben. Sok csapatnak ez a tökéletes középút: erős, de nem zabálja a vasat.
Miért érdekel téged ez a stackben?
AI-segített fejlesztésnél – helyi ügynökök, PR-ellenőrzés, tesztszüret – ezek a számok egyenesen költségbe és iterációba csapnak át:
- A késleltetés halmozódik. 3 perc/feladat, 20-szor naponta? Egy óra elveszett idő. Minden másodperc számít.
- Nem kell 100%. 94% hatszor gyorsabban jobb flow-t ad, mint a lassú tökéletes.
- A keret ugyanolyan fontos, mint a modell. Nem csak lecseréled – az ügynök-LLM beszélgetést irányító framework dönt.
Miért bíható ez a benchmark?
A legtöbb teszt belefullad a tréningadatokba, memorizálássá válik. Ez szigorúan privát: feladatok és pontozók rejtve maradnak, nem szivárognak ki.
Mit adnak ki? Összesített eredményeket, cellánkénti pontokat, grafikonkódot. Elég infó döntéshez, de nem csaláshoz.
A nehézség eloszlás kulcs: pt3_rope_gqa vagy jax1_complex_lp szétválasztja a jókat. Könnyű feladatokkal semmi sem derül ki. A 6 hardest szűri a top kombókat.
Mit jelent ez a NameOcean építésénél?
NameOcean Vibe Hostinggel, AI-fejlesztő eszközökkel ezek segítenek okosabban választani:
- Mely helyi modelleket hostold kódgenerálásra a saját infrastruktúrában.
- Hol húzd meg a határt helyi gondolkodás és cloud API között.
- Mennyi hardver kell a produktivitáshoz.
Egy M3 Max 128GB RAM-mal lefuttatta az összes 1360 tesztet. Modern gépen komoly helyi LLM-kísérletezhetsz enterprise nélkül.
Őszinte vélemény
A szerző "előzetes eredményeknek" nevezi – ez a fajta szerénység kell. Néhány sorrend változhat újrafutással. A Q4/Q8 kvantizációkban tartotta magát, jó jel, de nem kőbe vésett igazság.
Ez friss, gyakorlati áttekintés arról, mi működik. Nincs marketingbullshit, csak tények: feladatok, modellek, keretek, tesztkörnyezet.
A kódoló LLM-világ villámgyors. Fél éves benchmarkok régiek. Ez a sandboxos, rejtett tesztes, nyílt eredményes módszer lehet a jövő kerete.
Ha AI-fejlesztő eszközt építesz vagy stacket értékelsz, másold ezt. Sandbox, rejtett kritériumok, valódi workflow-mérés.
A győztes modellek nem mindig a legnagyobbak vagy show-offok. Azok, amik nem akadnak el, és hagyják szállítani a kódot.