Testkör lokala LLMs i hetluften: En devs guide till äkta kodbenchmarks
Stora LLM-kodtestet
AI-världen svämmar över av påståenden om "bästa modellen". Men vem mäter egentligen rätt? Benchmarks hamnar i träningsdata och tappar värde snabbt. Nu kommer utvecklare med riktiga, upprepningsbara tester som speglar vardagen: kodning, buggfixar och feature-släpp.
Vad testas egentligen?
Tänk dig 17 kvantiserade språkmodeller. Kombinera med 5 kodningsramverk som Aider, Claude Code, OpenCode, Pi och Qwen CLI. Släng på 16 äkta mjukvaruuppgifter i Python, PyTorch, JAX, C++, Rust och SQL. Det blir 1 360 isolerade körningar, bedömda av dolda testsvit som agenterna aldrig sett.
Fördelen? Det liknar verkligheten. Agenterna jobbar i sandbox-miljöer utan att tjuvtitta på lösningarna. Uppgifterna spänner från enkla SQL-loopar till avancerade PyTorch-optimeringar med rope embeddings och grouped query attention.
Det skiljer sig från akademiska tester där tränings- och testdata glider ihop.
Resultaten som räknas
Nyheten: Qwen 3.6-27B med Pi-ramverket klarar 16/16 perfekt. Genomsnitt 207 sekunder per uppgift. Enda kombinationen som sveper rent.
Men perfektion är inte alltid bäst. För snabbhet vinner gpt-oss-120b i MXFP4 med Pi: 15/16 på 34 sekunder. Sex gånger snabbare än vinnaren – för en miss. I dev-arbete väger det ofta tyngre.
Mid-size-modeller? Qwen 3.6-35B-A3B med Qwen-ramverk håller 15/16 på 108 sekunder. Lagom kraftfullt utan resurskrav.
Varför det påverkar din setup
Väljer du AI för kodhjälp – lokala agenter, PR-granskning eller testgenerering? Dessa siffror styr kostnad och tempo:
- Fördröjning adderar upp. 3 minuter per uppgift × 20 om dagen = en timme bortkastad tid.
- 94% räcker ofta. Snabbare flöde slår perfekt men långsamt.
- Ramverket är nyckeln. Modellen ensam räcker inte – samtalet agent-LLM avgör.
Testets styrka
Vanliga benchmarks dör när de läcker in i träningsdata. Här hålls uppgifter och bedömare hemliga. Inga framtida modeller kan memorera sig till seger.
Vad släpps? Sammanställda resultat, cellpoäng och plottkod. Tillräckligt för beslut, inte för fusk.
Svårighetsgraden skiljer agnarna från vetet. Enkla uppgifter säger inget. De tuffaste sex, som pt3_rope_gqa och jax1_complex_lp, sorterar toppskiktet.
Koppling till NameOcean
På NameOcean med Vibe Hosting och AI-verktyg? Använd detta för att välja:
- Lokala modeller för kodgenerering i din infra.
- Gränsen mellan lokal logik och cloud-API:er.
- Hardware-nivå för produktivitet.
En M3 Max med 128 GB RAM körde alla 1 360 tester. Modern Mac räcker för seriösa lokala experiment – ingen enterprise behövs.
Rak analys
Författaren kallar det "preliminära resultat". Ärligt och bra. Vissa placeringar kan skifta vid omkörningar. Mönstren höll i Q4/Q8, men det är ingen evig sanning.
Det här är praktisk, ärlig genomlysning. Inga säljfraser. Bara uppgifter, modeller, ramverk och sandbox.
LLM-landskapet rusar fram. Gamla benchmarks känns förlegade. Såna här tester – öppna resultat, dolda kriterier, verkliga flöden – pekar vägen.
Bygg egna sandbox-tester om du rullar AI-dev-verktyg. Dölj kriterierna. Mät det som betyder något.
Vinnarna är inte alltid störst eller flashigast. De som släpper igenom kodsnabbt tar hem det.