Tester lokale LLMs i praksis: Utviklerguide til ekte kodebenchmarks

Mai 03, 2026 local-llms ai-benchmarking coding-agents llm-quantization developer-tools machine-learning software-engineering llama-cpp vibe-hosting

Den store LLM-kodingstesten

AI-bransjen flommer over av påstander om at akkurat denne modellen er best. Men hvordan måler vi egentlig? Benchmarks spres i forskningsartikler, blander kriterier og havner ofte i treningsdata. De mister verdien fort.

Derfor er det spennende når utviklere lager ekte, repeterbare tester som matcher hverdagen: kode skriving, feilsøking og feature-utvikling.

Hva testes i praksis

Tenk deg 17 kvantiserte språkmodeller. Kombiner dem med 5 agent-rammeverk for koding (Aider, Claude Code, OpenCode, Pi, Qwen CLI). Slipp dem løs på 16 realistiske utvikleroppgaver i Python, PyTorch, JAX, C++, Rust og SQL. Totalt 1360 kjøring – alt i isolerte sandbokser, vurdert av skjulte tester de aldri ser.

Dette speiler virkeligheten. Agentene jobber alene. De kjenner ikke vurderingskriteriene. Oppgavene spenner fra enkle (rekursive SQL-forespørsler) til tøffe (avanserte PyTorch-optimaliseringer med rope embeddings og grouped query attention).

Her skiller det seg fra akademiske tester, der trenings- og testdata glir sammen.

Klar vinner – og overraskelser

Toppen: Qwen 3.6-27B med Pi-rammeverket scorer 16/16 perfekt. Gjennomsnittlig 207 sekunder per oppgave. Ingen annen kombinasjon klarer alt.

Men perfekt er ikke alltid best. Vil du ha hastighet? gpt-oss-120b i MXFP4 med Pi når 15/16 på bare 34 sekunder. Seks ganger raskere – for én feil. I ekte utvikling veier det ofte tyngre.

For midtstore modeller holder Qwen 3.6-35B-A3B med Qwen-rammeverket 15/16 på 108 sekunder. Perfekt balanse for de fleste team: kraft uten tung overhead.

Hvorfor det teller for din tech-stack

Velger du infra for AI-støttet utvikling – lokale agenter, PR-review eller testgenerering? Disse tallene påvirker kostnad og flyt:

Forsinkelse legger seg opp. Tre minutter per oppgave, 20 ganger daglig? Det blir en time tapt tid.
Nesten perfekt kan slå 100 %. 94 % på en brøkdel av tiden gir bedre flyt enn treg perfeksjon.
Rammeverket er like viktig som modellen. Det styrer samspillet mellom agent og LLM.

Hvorfor denne testen holder mål

Vanlige benchmarks dør når de lekker inn i treningsdata og blir memorering. Denne holder oppgaver og tester private – ingen fremtidig spoiling.

Publisert er oppsummeringer, detaljscore og plottkode. Nok til å velge smart, for lite til å jukse.

Oppgavene varierer i vanskelighetsgrad. Enkle der alt lykkes, sier ingenting. De seks tøffeste – som pt3_rope_gqa og jax1_complex_lp – skiller de beste fra resten.

Relevans for NameOcean-brukere

Med NameOcean's Vibe Hosting og AI-verktøy hjelper dette deg å velge:

Hvilke lokale modeller du skal hoste selv for kodegenerering.
Grensen mellom lokal og sky-API.
Hardware-behov for produktivitet.

En M3 Max med 128 GB RAM kjørte alle 1360 testene. Moderne maskiner takler seriøse LLM-eksperimenter uten enterprise-setup.

Ærlig dom

Forfatteren kaller det "foreløpige funn" – og det er bra. Noen plasseringer kan endres ved nykjøring. Mønstrene holder i Q4/Q8-kvantisering, men det er ikke hugget i stein.

Dette er praktisk testing uten hype. Bare oppgaver, modeller, rammeverk og ærlig måling.

LLM-koding endres raskt. Gamle benchmarks er utdatert. Slike åpne, private tester kan bli standarden.

Bygger du AI-utviklingsverktøy? Kopier dette: sandbokser, skjulte kriterier, fokus på ekte flyt.

Vinnerne er ikke alltid flaggskipene. Ofte de som slipper utviklere løs til å shippe kode.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NL HU IT FR ES DE DA ZH-HANS EN