Test af lokale LLMs i praksis: Udviklerguiden til ægte kodningsbenchmarks

Maj 03, 2026 local-llms ai-benchmarking coding-agents llm-quantization developer-tools machine-learning software-engineering llama-cpp vibe-hosting

Den Store LLM Kodningsudfordring

I AI-verdenen er det et evigt rod: Alle siger, deres model er bedst. Men ingen er enige om, hvordan man måler det. Benchmarks flyder rundt i forskningsartikler med forskellige kriterier. Og de ender ofte i træningsdata, så de mister værdien.

Det er derfor, det er godt at se udviklere lave rigtige, genanvendelige tests, der matcher hverdagens arbejde: Skrive kode, fikse fejl og rulle features ud.

Hvad tester vi egentlig?

Forestil dig et setup med 17 kvantificerede sprogmodeller. Kombiner dem med 5 kodningsrammeværk (Aider, Claude Code, OpenCode, Pi, Qwen CLI). Smid dem mod 16 ægte softwareopgaver i Python, PyTorch, JAX, C++, Rust og SQL. Det giver 1.360 løb – alle i isolerede sandkasser, vurderet af skjulte tests, som agenten aldrig ser.

Poenget? Det ligner virkeligheden. Agenten arbejder alene. Ingen kig på svarnøglerne. Opgaverne spænder fra enkle (rekursive SQL-forespørgsler) til svære (avancerede PyTorch-optimeringer med rope embeddings og grouped query attention).

Her adskiller det sig fra akademiske benchmarks, hvor trænings- og testdata glider sammen.

Resultaterne, folk vil have

Nyheden: Qwen 3.6-27B med Pi-rammen scorer perfekt 16/16 – hver opgave på ca. 207 sekunder. Kun kombinationen klarer alt.

Men perfektion er ikke altid smart.

Tænk på hastighed: gpt-oss-120b i MXFP4 med Pi rammer 15/16 på blot 34 sekunder per opgave. 6 gange hurtigere end topmodellen – for kun én fejl mere. I dagligdagen er det ofte det bedste valg.

Til mellemstore modeller holder Qwen 3.6-35B-A3B med Qwen-rammen 15/16 på 108 sekunder. Perfekt balance for mange teams: Kraftfuld uden for meget hardware.

Hvorfor det betyder noget for din tech-stack

Når du vælger AI til kodning – lokale agenter, PR-review eller testgenerering – oversætter disse tal til omkostninger og tempo:

Forsinkelse hober sig op. 3 minutter per opgave x 20 om dagen = en time spildt. Sekunder tæller.
100% er ikke altid nok. 94% på 6x hastighed giver bedre flow end en perfekt, men langsom løsning.
Rammen er lige så vigtig som modellen. Det handler om, hvordan agent og LLM snakker sammen.

Hvorfor denne test holder

De fleste benchmarks dør, når de bliver træningsdata – ren memorering. Her holdes opgaverne og vurderingerne hemmelige. Ingen fremtidig træning kan fuske.

Hvad deles? Samlede resultater, detaljerede scores og plot-kode. Nok til beslutninger, ikke nok til snyd.

Opgaverne varierer i sværhedsgrad. Nemme siger ingenting. De 6 hårdeste adskiller topkombinationerne.

Relevans for NameOcean-brugere

Med NameOcean's Vibe Hosting og AI-værktøjer hjælper det at vide:

Hvilke lokale modeller du selv hoster til kodegenerering.
Grænsen mellem lokal og cloud-API.
Hardwarebehovet for at holde produktiviteten.

En M3 Max med 128GB RAM kørte alle 1.360 tests. Moderne maskiner klarer seriøse LLM-tests uden firma-infrastruktur.

Den ærlige vurdering

Forfatteren kalder det "foreløbige resultater" – ærlig tilgang, vi mangler mere af. Nogle placeringer kan skifte ved gentagne kørsler. Mønstrene holder i Q4 og Q8, men det er ikke hugget i sten.

Det er en frisk, praktisk gennemgang af, hvad der virker. Ingen hype. Kun opgaver, modeller, rammer og fair test.

LLM-kodningsfeltet ændrer sig lynhurtigt. Benchmarks fra for 6 måneder er forældede. Denne type afgrænset, genanvendelig test med åbne resultater og skjulte opgaver er fremtiden.

Bygger du AI-kodningsværktøjer? Kopier det her: Isolerede tests, skjulte kriterier, fokus på rigtige workflows.

Vinderne er ikke altid de største modeller. Det er dem, der lader udviklere kode hurtigt.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DE ZH-HANS EN