Lokální LLM v akci: Vývojářský test na reálném kódu
Velká výzva LLM pro psaní kódu
Vývoj AI plní sliby, ale chybí jednotný měřítko. Každý tvůdce tvrdí, že jeho model je top. Benchmarky se liší, mizí v tréninkových datech a rychle ztrácejí smysl.
Proto oceňuji skutečné, opakovačné testy, které řeší denní realitu: kódování, ladění chyb a vydávání funkcí.
Co testujeme doopravdy
Vezměte 17 kvantizovaných jazykových modelů. Přidejte 5 nástrojů pro kódovací agenty (Aider, Claude Code, OpenCode, Pi, Qwen CLI). Nahajte je na 16 reálných úkolů z Pythonu, PyTorche, JAXu, C++, Rustu a SQL. Výsledek? 1 360 samostatných běhů v izolovaných prostorech, hodnocených skrytými testy.
Tento setup kopíruje praxi. Agenti pracují osamoceně, bez náhledu na hodnocení. Úkoly sahají od jednoduchých (rekurzivní SQL) po brutální (optimalizace PyTorche s rope embeddingy a GQA).
Na rozdíl od akademických testů, kde se tréninková a testovací data prolínají.
Klíčové výsledky na stůl
Hlavní vítěz: Qwen 3.6-27B s Pi harnessem – perfektních 16/16 úkolů, průměrně 207 sekund na kus. Jediná kombinace bez chyby.
Rychlost ale mění prioritu. gpt-oss-120b v MXFP4 s Pi zvládne 15/16 za 34 sekund. Šestkrát rychleji než dokonalý model, s jednou chybou navíc. Pro denní kódování ideální kompromis.
Pro střední modely? Qwen 3.6-35B-A3B s Qwen harnessem – 15/16 za 108 sekund. Žádný přehnaný hardware, solidní výkon.
Proč to ovlivní tvůj tech stack
Při výběru AI pro kódování – lokální agenti, review PR nebo testy – tyto čísla znamenají peníze a rychlost:
- Zpoždění se hromadí. Model na 3 minuty úkol znamená hodinu ztráty denně při 20 bězích.
- 100 % není vždy nutné. 94 % rychlostí x6 může být lepší než dokonalost s brzdami.
- Harness rozhoduje stejně jako model. Nástroj pro komunikaci agenta s LLM mění vše.
Proč tento test vydrží
Většina benchmarků umírá v tréninkových datech – stávají se testem paměti. Tady zůstávají úkoly a hodnocení soukromé. Žádné náhodné "učení" na testech.
Zveřejněny jsou shrnutí, detaily buněk a kód pro grafy. Dost pro rozhodnutí, málo pro podvádění.
Rozpětí obtížnosti filtruje. Jednoduché úkoly nic neřeknou. Nejtěžší šest (jako pt3_rope_gqa nebo jax1_complex_lp) oddělí špičku.
Co to znamená pro NameOcean
Na NameOcean Vibe Hosting s AI nástroji ti pomůže volit:
- Lokální modely pro self-hosting v tvé infrastruktuře.
- Hranice mezi lokálním a cloudem pro API.
- Hardware potřeby – M3 Max s 128 GB RAM zvládl všechny testy. Moderní mašina stačí na experimenty bez enterprise setupu.
Upřímný verdikt
Autor to nazval "předběžnými výsledky" – osvěžující poctivost. Při opakování se pořadí může posunout. Ale trendy drží v Q4 i Q8 kvantizaci.
Je to praktický pohled bez marketingu. Jen úkoly, modely, harnessy a férový testing.
AI kódování letí vpřed – staré benchmarky jsou prehistorie. Tento přístup s otevřenými výsledky a skrytými testy je cesta vpřed.
Pokud stavíš AI nástroje nebo testuješ stack, kopíruj to: sandboxy, skryté kritéria, měření reálné práce.
Největší modely nevyhrávají. Vítězí ty, co developera neurputují a nechají ho psát kód.