Lokale LLMs im Praxistest: Coding-Benchmarks für Entwickler
Der große Coding-Test für KI-Sprachmodelle
In der KI-Welt prahlen alle mit dem „besten“ Modell. Doch seriöse Vergleiche fehlen. Benchmarks stammen aus Papers, passen nicht zusammen und landen irgendwann im Trainingsdata. Deshalb freut es mich, wenn Entwickler echte, nachvollziehbare Tests bauen. Solche, die zum Alltag passen: Code schreiben, Bugs fixen, Features ausliefern.
Was genau wurde geprüft?
Stell dir vor: 17 quantisierte Sprachmodelle treffen auf 5 Coding-Agent-Frameworks wie Aider, Claude Code, OpenCode, Pi oder Qwen CLI. Dazu 16 echte Software-Aufgaben in Python, PyTorch, JAX, C++, Rust und SQL. Das ergibt 1.360 isolierte Läufe. Bewertet von versteckten Test-Suiten, die die Agents nie sehen.
Der Clou: Es fühlt sich wie der Arbeitsalltag an. Agents basteln in abgeschotteten Umgebungen. Kein Spicken bei den Korrekturen. Aufgaben reichen von einfachen SQL-Abfragen bis zu kniffligen PyTorch-Optimierungen mit Rope-Embeddings und Grouped-Query-Attention.
Anders als in der Forschung, wo Trainings- und Testdaten sich immer ähnlicher werden.
Die Ergebnisse im Überblick
Der Spitzenreiter: Qwen 3.6-27B mit Pi-Framework knackt alle 16 Aufgaben perfekt. Dauert pro Task rund 207 Sekunden. Keine andere Kombi schafft das.
Aber Perfektion ist nicht alles. Für Geschwindigkeit toppt gpt-oss-120b in MXFP4-Quantisierung mit Pi: 15/16 Erfolge in nur 34 Sekunden. Sechs Mal schneller als der Perfektionist – für einen Fehlschlag. Im echten Development oft der smarte Deal.
Bei mittleren Modellen glänzt Qwen 3.6-35B-A3B mit Qwen-Harness: 15/16 in 108 Sekunden. Starke Leistung, ohne viel Ressourcenfress.
Warum das für deinen Tech-Stack zählt
Beim AI-unterstützten Coding – lokal oder in der Cloud – wirken sich solche Zahlen auf Kosten und Tempo aus:
- Verzögerungen summieren sich. Drei Minuten pro Task, 20 Mal täglich? Das frisst eine Stunde Entwicklerzeit.
- 100 Prozent sind überbewertet. 94 Prozent in Sechstel der Zeit fühlen sich oft besser an.
- Der Harness zählt genauso wie das Modell. Frameworks steuern den Agent-LLM-Dialog und machen den Unterschied.
Warum dieser Test überzeugt
Viele Benchmarks veralten, weil Modelle sie auswendig lernen. Hier bleiben Tasks und Korrekturen geheim. Kein Risiko, dass Trainingsdaten sie kaputtmachen.
Öffentlich: Zusammengefasste Scores, Einzelwerte und Plot-Code. Genug für Entscheidungen, zu wenig zum Tricksen.
Die Aufgaben streuen gut. Leichte wie SQL-Recursion klappt bei allen. Harte wie pt3_rope_gqa oder jax1_complex_lp trennen Spreu vom Weizen. Nur Top-Kombis meistern die sechs Tougsten.
Auswirkungen für NameOcean-Nutzer
Bei NameOcean's Vibe Hosting mit AI-Tools helfen solche Tests:
- Lokale Modelle selbst hosten für sichere Code-Generierung.
- Grenzen ziehen zwischen lokalem Denken und Cloud-APIs.
- Hardware richtig dimensionieren – ein M3 Max mit 128 GB RAM meisterte alle 1.360 Runs.
Mein Fazit
Der Autor nennt es „vorläufige Ergebnisse“ – ehrliche Haltung. Mit Q4- und Q8-Quantisierungen blieben Muster stabil. Kein Evangelium, aber solider Start.
Endlich ein praxisnaher Check ohne Hype. Nur Tasks, Modelle, Frameworks und faire Tests.
Der Markt rast: Benchmarks von vor sechs Monaten sind Schrott. So reproducibel, mit offenen Ergebnissen und geheimen Tasks, könnte das der neue Standard werden.
Für AI-Tools oder eigenen Stack: Kopiert das. Baut Sandboxes. Versteckt Tests. Misst echten Workflow.
Gewinner sind nicht immer die Riesenmodelle. Sondern die, die Entwickler schnell zum Shippen bringen.