Tester lokale LLMs i praksis: Utviklerguide til ekte kodebenchmarks
Den store LLM-kodingstesten
AI-bransjen flommer over av påstander om at akkurat denne modellen er best. Men hvordan måler vi egentlig? Benchmarks spres i forskningsartikler, blander kriterier og havner ofte i treningsdata. De mister verdien fort.
Derfor er det spennende når utviklere lager ekte, repeterbare tester som matcher hverdagen: kode skriving, feilsøking og feature-utvikling.
Hva testes i praksis
Tenk deg 17 kvantiserte språkmodeller. Kombiner dem med 5 agent-rammeverk for koding (Aider, Claude Code, OpenCode, Pi, Qwen CLI). Slipp dem løs på 16 realistiske utvikleroppgaver i Python, PyTorch, JAX, C++, Rust og SQL. Totalt 1360 kjøring – alt i isolerte sandbokser, vurdert av skjulte tester de aldri ser.
Dette speiler virkeligheten. Agentene jobber alene. De kjenner ikke vurderingskriteriene. Oppgavene spenner fra enkle (rekursive SQL-forespørsler) til tøffe (avanserte PyTorch-optimaliseringer med rope embeddings og grouped query attention).
Her skiller det seg fra akademiske tester, der trenings- og testdata glir sammen.
Klar vinner – og overraskelser
Toppen: Qwen 3.6-27B med Pi-rammeverket scorer 16/16 perfekt. Gjennomsnittlig 207 sekunder per oppgave. Ingen annen kombinasjon klarer alt.
Men perfekt er ikke alltid best. Vil du ha hastighet? gpt-oss-120b i MXFP4 med Pi når 15/16 på bare 34 sekunder. Seks ganger raskere – for én feil. I ekte utvikling veier det ofte tyngre.
For midtstore modeller holder Qwen 3.6-35B-A3B med Qwen-rammeverket 15/16 på 108 sekunder. Perfekt balanse for de fleste team: kraft uten tung overhead.
Hvorfor det teller for din tech-stack
Velger du infra for AI-støttet utvikling – lokale agenter, PR-review eller testgenerering? Disse tallene påvirker kostnad og flyt:
- Forsinkelse legger seg opp. Tre minutter per oppgave, 20 ganger daglig? Det blir en time tapt tid.
- Nesten perfekt kan slå 100 %. 94 % på en brøkdel av tiden gir bedre flyt enn treg perfeksjon.
- Rammeverket er like viktig som modellen. Det styrer samspillet mellom agent og LLM.
Hvorfor denne testen holder mål
Vanlige benchmarks dør når de lekker inn i treningsdata og blir memorering. Denne holder oppgaver og tester private – ingen fremtidig spoiling.
Publisert er oppsummeringer, detaljscore og plottkode. Nok til å velge smart, for lite til å jukse.
Oppgavene varierer i vanskelighetsgrad. Enkle der alt lykkes, sier ingenting. De seks tøffeste – som pt3_rope_gqa og jax1_complex_lp – skiller de beste fra resten.
Relevans for NameOcean-brukere
Med NameOcean's Vibe Hosting og AI-verktøy hjelper dette deg å velge:
- Hvilke lokale modeller du skal hoste selv for kodegenerering.
- Grensen mellom lokal og sky-API.
- Hardware-behov for produktivitet.
En M3 Max med 128 GB RAM kjørte alle 1360 testene. Moderne maskiner takler seriøse LLM-eksperimenter uten enterprise-setup.
Ærlig dom
Forfatteren kaller det "foreløpige funn" – og det er bra. Noen plasseringer kan endres ved nykjøring. Mønstrene holder i Q4/Q8-kvantisering, men det er ikke hugget i stein.
Dette er praktisk testing uten hype. Bare oppgaver, modeller, rammeverk og ærlig måling.
LLM-koding endres raskt. Gamle benchmarks er utdatert. Slike åpne, private tester kan bli standarden.
Bygger du AI-utviklingsverktøy? Kopier dette: sandbokser, skjulte kriterier, fokus på ekte flyt.
Vinnerne er ikke alltid flaggskipene. Ofte de som slipper utviklere løs til å shippe kode.