Testuję lokalne LLM na maksa: Praktyczny przewodnik developera po benchmarkach kodowania
Wielki test LLM do kodowania
W świecie AI każdy producent chwali swój model za najlepszy. Ale brakuje zgody, jak to mierzyć. Benchmarki z papierów naukowych mieszają się z danymi treningowymi i tracą sens.
Na szczęście pojawiają się deweloperzy, którzy tworzą prawdziwe, powtarzalne testy. Takie, co sprawdzają codzienne zadania: pisanie kodu, łamanie błędów, wdrażanie funkcji.
Co dokładnie sprawdzamy
Wyobraź sobie eksperyment: 17 skwantyzowanych modeli językowych, 5 frameworków do kodowania (Aider, Claude Code, OpenCode, Pi, Qwen CLI) i 16 realnych zadań z Pythona, PyTorch, JAX, C++, Rust czy SQL. To daje 1360 testów – każdy w izolowanym środowisku, oceniany ukrytymi testami, których agent nie zna.
Dlaczego to działa? Odzwierciedla praktykę. Agent działa w sandboxie, bez podglądu rozwiązań. Zadania od prostych (rekurencyjne zapytania SQL) po mordercze (optymalizacje PyTorch z rope embeddings i grouped query attention).
To nie te akademickie benchmarki, gdzie dane treningowe i testowe zlewają się w jedno.
Wyniki, na które czekasz
Najważniejsze: Qwen 3.6-27B z Pi zaliczył idealne 16/16. Średnio 207 sekund na zadanie. Jedyna kombinacja bezbłędna.
Ale perfekcja nie zawsze się opłaca.
Dla fanów szybkości – gpt-oss-120b w MXFP4 z Pi daje 15/16 w 34 sekundy. Sześć razy szybciej niż zwycięzca, za cenę jednego pudła. W codziennej robocie to często lepszy wybór.
Mid-size modele? Qwen 3.6-35B-A3B z Qwen harness – 15/16 w 108 sekund. Idealny balans mocy i zasobów dla zespołów.
Dlaczego to ważne dla twojego setupu
Wybierając infrastrukturę do AI w development – lokalne agenty, review PR czy generowanie testów – te wyniki liczą się na kasie i tempie:
- Opóźnienia sumują się. Model na 3 minuty na zadanie, 20 razy dziennie? Godzina stracona. Każda sekunda ma znaczenie.
- 100% nie zawsze wygrywa. 94% w 6x szybszym tempie bije perfekcję z korkami.
- Harness jest kluczowy. Model to nie wszystko – framework sterujący rozmową agent-LLM zmienia wszystko.
Szczegóły: dlaczego ten benchmark jest solidny
Większość testów pada, bo trafia do danych treningowych i staje się testem pamięci. Tu zadania i oceniające suity są prywatne – modele nie mogą ich "przećwiczyć".
Publikują wyniki zbiorcze, pojedyncze score'y i kod do wizualizacji. Wystarczająco, by wybrać mądrze, za mało, by oszukiwać.
Rozpiętość trudności też gra rolę. Proste zadania nic nie mówią. Te najtrudniejsze (jak pt3_rope_gqa czy jax1_complex_lp) dzielą liderów od reszty.
Co to znaczy dla NameOcean
Używasz Vibe Hosting od NameOcean z narzędziami AI do dev? Te dane pomogą ci ogarnąć:
- Które modele lokalnie hostować do generowania kodu w twoim stacku.
- Gdzie granica między lokalnym myśleniem a API w chmurze.
- Ile sprzętu potrzeba, by nie marnować czasu.
Jeden M3 Max z 128GB RAM ogarnął wszystkie 1360 testów. Pokazuje, że na nowoczesnym sprzęcie robisz poważne eksperymenty bez korpo-farm.
Szczera ocena
Autor mówi "wstępne wyniki" – i to budzi szacunek. Rankingi mogą się ruszyć po re-runach. Wzorce trzymają się w Q4 i Q8, ale to nie dogma.
To praktyczny test tego, co działa. Bez marketingowego bełkotu. Zadania, modele, harneesy i uczciwy testing.
Świat LLM do kodowania pędzi – benchmarki sprzed pół roku to prehistoria. Takie rygorystyczne, otwarte testy z ukrytymi zadaniami to przyszłość.
Budujesz narzędzia AI do dev lub testujesz modele? Naśladuj to. Sandboxy, ukryte kryteria, pomiary z realnych workflow.
Wygrywają nie zawsze największe modele z demo. Czasem te, co nie wchodzą w drogę i dają kodować.