Xiaomi otevřelo MiMo-V2.5-Pro – a předefinovává, co znamená „dost dobrý“ AI kódovač
Když AI zvládne semestrální projekt za pár hodin
Přišel ten okamžik, kdy je jasné, že AI svět se změnil. Xiaomiho nový model na kódování dokončil semestrální úkol z Pekingské univerzity – Rust kompilátor – za 4,3 hodiny. Žádné chyby, které by musel opravovat člověk. Perfektní výsledek: 233 z 233 testů na neznámé sadě.
A ano, model je open source.
Tohle není jen zajímavá zpráva. Ukazuje obrovský rozdíl mezi týdny studentova úsilí a tím, co AI zvládne odpoledne. Klíčová otázka pro developery: jak to změní náš způsob tvorby software?
Více než benchmarky: Skutečné úkoly
Benchmarky jsou fajn, ale nestačí. Xiaomi testoval MiMo-V2.5-Pro na třech reálných výzvách. To dává lepší obrázek.
Kompilátor – už jsme zmínili. Dokonalý výkon, žádná manuální oprava.
Video editor je top. Model dostal volný popis: „Vytvoř video editor.“ Žádné detaily. Za 11,5 hodiny udělal 1868 volání nástrojů. Výsledek? Plnohodnotná desktop app s více stopami, střihem, přechody, mixem audia a exportem. 8192 řádků kódu z neurčitého zadání. To je agentické myšlení v akci.
Analogový obvod – pokročilý úkol z elektrotechniky. Návrh low-dropout regulátoru v 180nm TSMC procesu. Model spolupracoval s ngspice, iteroval parametry a za hodinu splnil všechny cíle. Line regulation se zlepšila 22x, load regulation 17x. To je optimalizace, na kterou potřebuješ inženýra s kávou.
Společné? Sebakorrekce v akci. Při kompilátoru se objevila chyba v kroku 512. Model ji našel, opravil refactoring a pokračoval sám. Tisíce volání nástrojů bez ztráty souvislostí. Přechod od benchmarku k reálnému kódu.
Jak na tom stojí v benchmarkách
Čísla jsou důležitá, ale s kontextem.
Na SWE-Bench Pro má MiMo 57,2 – téměř jako Claude Opus 4.6 (57,3) nebo GPT-5.4 (57,7). Top úroveň.
Na Terminal-Bench 2.0 překonává Claude (68,4 vs 65,4).
Na SWE-Bench Verified vede Claude (80,8 vs 78,9), ale rozdíl je malý – open source cena rozhodne.
Na Claw-Eval Pass@3 bije GPT-5.4 i Gemini 3.1 Pro.
Slabší je na HLE nebo GDPVal-AA, kde jde o široké myšlení. MiMo je coding-first model. Specializace je plus pro software.
MiMo vs DeepSeek V4 Pro: Open source volba pro developery
Dvě open source bestie na stejné lince: top kódování bez API poplatků. Oba MIT, na HuggingFace.
Kódový výkon:
- SWE-Bench Pro: MiMo 57,2 vs DeepSeek 55,4
- Terminal-Bench 2.0: 68,4 vs 67,9 (rovnocenné)
- SWE-Bench Verified: DeepSeek 80,6 vs MiMo 78,9
Žádný jasný vítěz. Různé silné stránky.
Klíčový rozdíl: efektivita parametrů:
- DeepSeek V4 Pro: 49B z 1,6T na token
- MiMo-V2.5-Pro: 42B z 1,02T na token
MiMo šetří paměť, rychlejší inference, nižší náklady. Ideální pro self-hosting nebo edge.
Co nového v V2.5-Pro
Skok z V2-Flash není malý:
- Dlouhodobá souvislost: Kompilátor i editor potřebovaly stovky kroků bez ztráty nitě.
- Agentické skills: Plánuje, iteruje, diagnostikuje, opravuje. Vidět u chyby v kompilátoru.
- Tool calls: Přes 1000 volání bez poklesu. Editor měl 1868 a fungoval.
Proč to změní tvůj stack
Pro startupy nebo malé týmy je MiMo game changer:
- Cena: Žádné token fees. Běží na tvém HW.
- Rychlost: Efektivita na běžném železe.
- Bezpečnost: Kód zůstává u tebe.
- Přizpůsobení: Fine-tune podle potřeby.
- Fokus: Optimalizovaný na kód, ne na všechno.
Na platformách jako Vibe Hosting ho zapojíš do pipeline pro auto-generování kódu bez externích API.
Širší pohled
Open source AI není „zdarma Claude“. Jde o kontrolu, předvídatelné náklady a vlastní nástroje. MiMo s perfektním kompilátorem a funkčním editorem ukazuje: jsme v production fázi.
Otázka není, jestli je jako GPT. Je, jestli potřebuješ svůj model – a co to umožní, když řídíš inference.