Lokální LLM v akci: Vývojářský test na reálném kódu

Kvě 03, 2026 local-llms ai-benchmarking coding-agents llm-quantization developer-tools machine-learning software-engineering llama-cpp vibe-hosting

Velká výzva LLM pro psaní kódu

Vývoj AI plní sliby, ale chybí jednotný měřítko. Každý tvůdce tvrdí, že jeho model je top. Benchmarky se liší, mizí v tréninkových datech a rychle ztrácejí smysl.

Proto oceňuji skutečné, opakovačné testy, které řeší denní realitu: kódování, ladění chyb a vydávání funkcí.

Co testujeme doopravdy

Vezměte 17 kvantizovaných jazykových modelů. Přidejte 5 nástrojů pro kódovací agenty (Aider, Claude Code, OpenCode, Pi, Qwen CLI). Nahajte je na 16 reálných úkolů z Pythonu, PyTorche, JAXu, C++, Rustu a SQL. Výsledek? 1 360 samostatných běhů v izolovaných prostorech, hodnocených skrytými testy.

Tento setup kopíruje praxi. Agenti pracují osamoceně, bez náhledu na hodnocení. Úkoly sahají od jednoduchých (rekurzivní SQL) po brutální (optimalizace PyTorche s rope embeddingy a GQA).

Na rozdíl od akademických testů, kde se tréninková a testovací data prolínají.

Klíčové výsledky na stůl

Hlavní vítěz: Qwen 3.6-27B s Pi harnessem – perfektních 16/16 úkolů, průměrně 207 sekund na kus. Jediná kombinace bez chyby.

Rychlost ale mění prioritu. gpt-oss-120b v MXFP4 s Pi zvládne 15/16 za 34 sekund. Šestkrát rychleji než dokonalý model, s jednou chybou navíc. Pro denní kódování ideální kompromis.

Pro střední modely? Qwen 3.6-35B-A3B s Qwen harnessem – 15/16 za 108 sekund. Žádný přehnaný hardware, solidní výkon.

Proč to ovlivní tvůj tech stack

Při výběru AI pro kódování – lokální agenti, review PR nebo testy – tyto čísla znamenají peníze a rychlost:

Zpoždění se hromadí. Model na 3 minuty úkol znamená hodinu ztráty denně při 20 bězích.
100 % není vždy nutné. 94 % rychlostí x6 může být lepší než dokonalost s brzdami.
Harness rozhoduje stejně jako model. Nástroj pro komunikaci agenta s LLM mění vše.

Proč tento test vydrží

Většina benchmarků umírá v tréninkových datech – stávají se testem paměti. Tady zůstávají úkoly a hodnocení soukromé. Žádné náhodné "učení" na testech.

Zveřejněny jsou shrnutí, detaily buněk a kód pro grafy. Dost pro rozhodnutí, málo pro podvádění.

Rozpětí obtížnosti filtruje. Jednoduché úkoly nic neřeknou. Nejtěžší šest (jako pt3_rope_gqa nebo jax1_complex_lp) oddělí špičku.

Co to znamená pro NameOcean

Na NameOcean Vibe Hosting s AI nástroji ti pomůže volit:

Lokální modely pro self-hosting v tvé infrastruktuře.
Hranice mezi lokálním a cloudem pro API.
Hardware potřeby – M3 Max s 128 GB RAM zvládl všechny testy. Moderní mašina stačí na experimenty bez enterprise setupu.

Upřímný verdikt

Autor to nazval "předběžnými výsledky" – osvěžující poctivost. Při opakování se pořadí může posunout. Ale trendy drží v Q4 i Q8 kvantizaci.

Je to praktický pohled bez marketingu. Jen úkoly, modely, harnessy a férový testing.

AI kódování letí vpřed – staré benchmarky jsou prehistorie. Tento přístup s otevřenými výsledky a skrytými testy je cesta vpřed.

Pokud stavíš AI nástroje nebo testuješ stack, kopíruj to: sandboxy, skryté kritéria, měření reálné práce.

Největší modely nevyhrávají. Vítězí ty, co developera neurputují a nechají ho psát kód.

Read in other languages:

RU BG EL UZ TR SV FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN