Paikalliset LLM:t koetuksella: Kehittäjän opas aitoihin kooditestibenchmarkeihin

Tou 03, 2026 local-llms ai-benchmarking coding-agents llm-quantization developer-tools machine-learning software-engineering llama-cpp vibe-hosting

Suuri LLM-koodaushaaste

AI-maailmassa on ärsyttävää, kun jokainen kehittäjä väittää oman mallinsa olevan ykkönen. Mittaustavat vaihtelevat, benchmarkit ovat sirpaleisia ja monet päätyvät koulutustietoihin, jolloin ne menettävät arvonsa.

Siksi on virkistävää nähdä kehittäjiä, jotka luovat aidosti toistettavia benchmarkeja. Nämä testaavat arkipäivän hommia: koodausta, bugeja ja ominaisuuksien puskaradioa.

Mitä testattiin – ja miksi se on aitoa

Kokeessa otettiin 17 kvantisoidun kielimallin, yhdistettiin ne viiteen koodausagentin runkoon (Aider, Claude Code, OpenCode, Pi, Qwen CLI) ja heitettiin 16 oikean maailman softatehtävään. Kielet: Python, PyTorch, JAX, C++, Rust ja SQL. Yhteensä 1 360 suoritusta – kaikki hiekkalaatikossa, arvioitu piilotetuilla testeillä, joita agentit eivät näe.

Tämä jäljittelee todellisuutta. Agentit työskentelevät suljetuissa tiloissa ilman vilkaisuakaan arviointikriteereihin. Tehtävät vaihtelevat helppoista (rekursiiviset SQL-kyselyt) äärimmäisen vaikeisiin (PyTorch-optimaatiot rope-embeddingsillä ja grouped query attentionilla).

Ei mitään akateemista leikkiä, jossa testidatat ja koulutustiedot sekoittuvat.

Tulokset, jotka kaikki odottavat

Pääuutinen: Qwen 3.6-27B Pi-rungon kanssa sai täydet 16/16 – noin 207 sekuntia per tehtävä. Ainoa kombinaatio, joka selvisi kaikesta.

Nopeus ratkaisee usein enemmän. gpt-oss-120b MXFP4-kvantisoinnilla ja Pi:llä teki 15/16 vain 34 sekunnissa. Kuusi kertaa nopeampi kuin täydellinen, vain yhden epäonnistumisen hinnalla. Arjessa tämä on usein fiksumpi valinta.

Keskitason malleille Qwen 3.6-35B-A3B Qwen-rungon kanssa piti 15/16 noin 108 sekunnissa. Sopiva tasapaino monille tiimeille: tehokasta ilman turhia resursseja.

Miksi tämä vaikuttaa sun stackiin

Kun valitset infraa AI-avusteiseen kehitykseen – paikallisiin agentteihin, PR-tarkistuksiin tai testigenerointiin – nämä luvut tarkoittavat suoraan kustannuksia ja iterointinopeutta:

Viiveet kasaantuvat. Jos malli vie 3 minuuttia per homma ja dev ajaa sen 20 kertaa päivässä, menetät tunnin. Jokainen sekunti merkitsee.
Täydellisyys ei aina kannata. 94 % osumatarkkuus kuusinkertaisella nopeudella voi olla parempi kokemus kuin 100 % pullonkaula.
Runko on yhtä tärkeä kuin malli. Et voi vain vaihtaa – agentin ja LLM:n keskustelun ohjaus ratkaisee.

Miksi tämä benchmark kestää

Useimmat benchmarkit kuolevat koulutustietoihin. Tässä testit pysyvät salassa: promptit ja arvosuoritukset lukittuna, joten mallit eivät voi "opetella" niitä.

Julkaistaan aggregoidut tulokset, yksittäiset pisteet ja plotting-koodi. Riittävästi läpinäkyvyyttä päätöksiin, ei tarpeeksi pelailuun.

Vaikeustaso erottelee. Helpot tehtävät eivät kerro mitään. Kuusi vaikeinta – kuten pt3_rope_gqa ja jax1_complex_lp – nostavat kärjen esiin.

Rakentaminen NameOceanin päällä

NameOceanin Vibe Hostingissa AI-työkalujen kanssa nämä benchmarkit auttavat päätöksissä:

Mitkä paikallismallit hostata koodigenerointiin omassa infrassa.
Missä raja paikallisen ja pilven API:n välillä.
Paljonko hardwarea tarvitset tuottavuuteen.

Yksi M3 Max 128 Gt RAM:lla ajoi kaikki 1 360 testin. Moderni kone riittää vakaviin kokeiluihin ilman enterprise-luokkaa.

Rehellinen näkemys

Kirjoittaja puhuu "alustavista tuloksista" – juuri sellaista rehellisyyttä tarvitaan. Jotkut sijoitukset voivat muuttua uusilla juoksuilla. Q4- ja Q8-kvantisoinnit pitivät kuvion, mutta ei kaiverrettu kiveen.

Tämä on raikas, käytännönläheinen testi sille, mikä toimii. Ei markkinapuhetta. Vain tehtäviä, malleja, runkoja ja rehellinen testaus.

Koodaus-LLM-maailma liikkuu salamannopeasti – puolen vuoden benchmarkit ovat muistoja. Tällainen toistettava testi avoimin tuloksin ja salaisilla tehtävillä voi olla kypsyyden avain.

Jos pusket AI-kehitystyökaluja tai arvioit malleja, kopioi tämä: hiekkalaatikot, piilotetut kriteerit, aidot workflowit.

Voittajat eivät aina ole isoimmat parametrit tai showstopperit. Ne, jotka päästävät devaajat koodaamaan ripeästi.

Read in other languages:

RU BG EL CS UZ TR SV RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN