Test af lokale LLMs i praksis: Udviklerguiden til ægte kodningsbenchmarks

Test af lokale LLMs i praksis: Udviklerguiden til ægte kodningsbenchmarks

Maj 03, 2026 local-llms ai-benchmarking coding-agents llm-quantization developer-tools machine-learning software-engineering llama-cpp vibe-hosting

Den Store LLM Kodningsudfordring

I AI-verdenen er det et evigt rod: Alle siger, deres model er bedst. Men ingen er enige om, hvordan man måler det. Benchmarks flyder rundt i forskningsartikler med forskellige kriterier. Og de ender ofte i træningsdata, så de mister værdien.

Det er derfor, det er godt at se udviklere lave rigtige, genanvendelige tests, der matcher hverdagens arbejde: Skrive kode, fikse fejl og rulle features ud.

Hvad tester vi egentlig?

Forestil dig et setup med 17 kvantificerede sprogmodeller. Kombiner dem med 5 kodningsrammeværk (Aider, Claude Code, OpenCode, Pi, Qwen CLI). Smid dem mod 16 ægte softwareopgaver i Python, PyTorch, JAX, C++, Rust og SQL. Det giver 1.360 løb – alle i isolerede sandkasser, vurderet af skjulte tests, som agenten aldrig ser.

Poenget? Det ligner virkeligheden. Agenten arbejder alene. Ingen kig på svarnøglerne. Opgaverne spænder fra enkle (rekursive SQL-forespørgsler) til svære (avancerede PyTorch-optimeringer med rope embeddings og grouped query attention).

Her adskiller det sig fra akademiske benchmarks, hvor trænings- og testdata glider sammen.

Resultaterne, folk vil have

Nyheden: Qwen 3.6-27B med Pi-rammen scorer perfekt 16/16 – hver opgave på ca. 207 sekunder. Kun kombinationen klarer alt.

Men perfektion er ikke altid smart.

Tænk på hastighed: gpt-oss-120b i MXFP4 med Pi rammer 15/16 på blot 34 sekunder per opgave. 6 gange hurtigere end topmodellen – for kun én fejl mere. I dagligdagen er det ofte det bedste valg.

Til mellemstore modeller holder Qwen 3.6-35B-A3B med Qwen-rammen 15/16 på 108 sekunder. Perfekt balance for mange teams: Kraftfuld uden for meget hardware.

Hvorfor det betyder noget for din tech-stack

Når du vælger AI til kodning – lokale agenter, PR-review eller testgenerering – oversætter disse tal til omkostninger og tempo:

  • Forsinkelse hober sig op. 3 minutter per opgave x 20 om dagen = en time spildt. Sekunder tæller.
  • 100% er ikke altid nok. 94% på 6x hastighed giver bedre flow end en perfekt, men langsom løsning.
  • Rammen er lige så vigtig som modellen. Det handler om, hvordan agent og LLM snakker sammen.

Hvorfor denne test holder

De fleste benchmarks dør, når de bliver træningsdata – ren memorering. Her holdes opgaverne og vurderingerne hemmelige. Ingen fremtidig træning kan fuske.

Hvad deles? Samlede resultater, detaljerede scores og plot-kode. Nok til beslutninger, ikke nok til snyd.

Opgaverne varierer i sværhedsgrad. Nemme siger ingenting. De 6 hårdeste adskiller topkombinationerne.

Relevans for NameOcean-brugere

Med NameOcean's Vibe Hosting og AI-værktøjer hjælper det at vide:

  • Hvilke lokale modeller du selv hoster til kodegenerering.
  • Grænsen mellem lokal og cloud-API.
  • Hardwarebehovet for at holde produktiviteten.

En M3 Max med 128GB RAM kørte alle 1.360 tests. Moderne maskiner klarer seriøse LLM-tests uden firma-infrastruktur.

Den ærlige vurdering

Forfatteren kalder det "foreløbige resultater" – ærlig tilgang, vi mangler mere af. Nogle placeringer kan skifte ved gentagne kørsler. Mønstrene holder i Q4 og Q8, men det er ikke hugget i sten.

Det er en frisk, praktisk gennemgang af, hvad der virker. Ingen hype. Kun opgaver, modeller, rammer og fair test.

LLM-kodningsfeltet ændrer sig lynhurtigt. Benchmarks fra for 6 måneder er forældede. Denne type afgrænset, genanvendelig test med åbne resultater og skjulte opgaver er fremtiden.

Bygger du AI-kodningsværktøjer? Kopier det her: Isolerede tests, skjulte kriterier, fokus på rigtige workflows.

Vinderne er ikke altid de største modeller. Det er dem, der lader udviklere kode hurtigt.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DE ZH-HANS EN