Tester lokale LLMs i praksis: Utviklerguide til ekte kodebenchmarks

Tester lokale LLMs i praksis: Utviklerguide til ekte kodebenchmarks

Mai 03, 2026 local-llms ai-benchmarking coding-agents llm-quantization developer-tools machine-learning software-engineering llama-cpp vibe-hosting

Den store LLM-kodingstesten

AI-bransjen flommer over av påstander om at akkurat denne modellen er best. Men hvordan måler vi egentlig? Benchmarks spres i forskningsartikler, blander kriterier og havner ofte i treningsdata. De mister verdien fort.

Derfor er det spennende når utviklere lager ekte, repeterbare tester som matcher hverdagen: kode skriving, feilsøking og feature-utvikling.

Hva testes i praksis

Tenk deg 17 kvantiserte språkmodeller. Kombiner dem med 5 agent-rammeverk for koding (Aider, Claude Code, OpenCode, Pi, Qwen CLI). Slipp dem løs på 16 realistiske utvikleroppgaver i Python, PyTorch, JAX, C++, Rust og SQL. Totalt 1360 kjøring – alt i isolerte sandbokser, vurdert av skjulte tester de aldri ser.

Dette speiler virkeligheten. Agentene jobber alene. De kjenner ikke vurderingskriteriene. Oppgavene spenner fra enkle (rekursive SQL-forespørsler) til tøffe (avanserte PyTorch-optimaliseringer med rope embeddings og grouped query attention).

Her skiller det seg fra akademiske tester, der trenings- og testdata glir sammen.

Klar vinner – og overraskelser

Toppen: Qwen 3.6-27B med Pi-rammeverket scorer 16/16 perfekt. Gjennomsnittlig 207 sekunder per oppgave. Ingen annen kombinasjon klarer alt.

Men perfekt er ikke alltid best. Vil du ha hastighet? gpt-oss-120b i MXFP4 med Pi når 15/16 på bare 34 sekunder. Seks ganger raskere – for én feil. I ekte utvikling veier det ofte tyngre.

For midtstore modeller holder Qwen 3.6-35B-A3B med Qwen-rammeverket 15/16 på 108 sekunder. Perfekt balanse for de fleste team: kraft uten tung overhead.

Hvorfor det teller for din tech-stack

Velger du infra for AI-støttet utvikling – lokale agenter, PR-review eller testgenerering? Disse tallene påvirker kostnad og flyt:

  • Forsinkelse legger seg opp. Tre minutter per oppgave, 20 ganger daglig? Det blir en time tapt tid.
  • Nesten perfekt kan slå 100 %. 94 % på en brøkdel av tiden gir bedre flyt enn treg perfeksjon.
  • Rammeverket er like viktig som modellen. Det styrer samspillet mellom agent og LLM.

Hvorfor denne testen holder mål

Vanlige benchmarks dør når de lekker inn i treningsdata og blir memorering. Denne holder oppgaver og tester private – ingen fremtidig spoiling.

Publisert er oppsummeringer, detaljscore og plottkode. Nok til å velge smart, for lite til å jukse.

Oppgavene varierer i vanskelighetsgrad. Enkle der alt lykkes, sier ingenting. De seks tøffeste – som pt3_rope_gqa og jax1_complex_lp – skiller de beste fra resten.

Relevans for NameOcean-brukere

Med NameOcean's Vibe Hosting og AI-verktøy hjelper dette deg å velge:

  • Hvilke lokale modeller du skal hoste selv for kodegenerering.
  • Grensen mellom lokal og sky-API.
  • Hardware-behov for produktivitet.

En M3 Max med 128 GB RAM kjørte alle 1360 testene. Moderne maskiner takler seriøse LLM-eksperimenter uten enterprise-setup.

Ærlig dom

Forfatteren kaller det "foreløpige funn" – og det er bra. Noen plasseringer kan endres ved nykjøring. Mønstrene holder i Q4/Q8-kvantisering, men det er ikke hugget i stein.

Dette er praktisk testing uten hype. Bare oppgaver, modeller, rammeverk og ærlig måling.

LLM-koding endres raskt. Gamle benchmarks er utdatert. Slike åpne, private tester kan bli standarden.

Bygger du AI-utviklingsverktøy? Kopier dette: sandbokser, skjulte kriterier, fokus på ekte flyt.

Vinnerne er ikke alltid flaggskipene. Ofte de som slipper utviklere løs til å shippe kode.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NL HU IT FR ES DE DA ZH-HANS EN