Xiaomi åbner MiMo-V2.5-Pro: Nu er "god nok" det nye AI-kode-niveau

Apr 28, 2026 ai coding models open source development machine learning compiler design software engineering deployment infrastructure developer tools

Når AI-modellen gør studenters månedsarbejde på få timer

Pludselig skifter AI-verdenen. Det ramte os, da vi hørte, at Xiaomis nye kodningsmodel klarede Peking Universitets semesterprojekt – en fuld Rust-kompilator – på blot 4,3 timer. Ikke dage. Ikke med fejl, der kræver menneskelig rettelse. Perfekt: 233 ud af 233 tests på et skjult testsæt, modellen aldrig havde set.

Og ja – den er open source.

Det handler ikke kun om overskriften. Her ser vi den klare forskel mellem studenters ugers slid og en AI's eftermiddag. Større spørgsmål: hvordan ændrer det, hvordan vi bygger software?

Mere end benchmarks: Ægte resultater

Benchmarks er fine. Men de siger ikke alt. Xiaomis tre hårde tests viser MiMo-V2.5-Pros sand styrke.

Kompilator-testen kender vi: fejlfri, ingen tilbageslag at fikse.

Video-editor-udfordringen bliver spændende. Vagt prompt: "byg en video-editor". Ingen detaljeret spec. Modellen brugte 11,5 timer på 1.868 tool calls og leverede en fungerende desktop-app. Multi-track-tidslinje, klip-trim, crossfades, lydmix og eksport. 8.192 produktionslinjer fra en løs idé. Det er ægte agent-tænkning, ikke bare autoudfyldning.

Analog kredsløbsdesign går ind i ekspert-territorium. Graduate-niveau i elektroteknik: low-dropout regulator i 180nm TSMC-proces. MiMo integrerede ngspice, itererede parametre og ramte alle mål på en time. Line regulation 22x bedre. Load regulation 17x forbedret. Det kræver normalt en erfaren ingeniør og stærk kaffe.

Fællesnævneren? Selvkorrektion i stor skala. I kompilator-projektet dukkede en fejl op ved trin 512. Modellen diagnostiserede, fandt den ødelagte refactoring og rettede uden hjælp. Tusindvis af tool calls – alt holdt sammenhæng.

Benchmarks i perspektiv

Tal betyder noget. Men med kontekst.

På SWE-Bench Pro scorer MiMo-V2.5-Pro 57,2 – tæt på Claude Opus 4.6 (57,3) og GPT-5.4 (57,7). Topniveau.

På Terminal-Bench 2.0 slår MiMo Claude (68,4 mod 65,4). Modeller har forskellige styrker.

SWE-Bench Verified: Claude leder (80,8 mod 78,9), men marginen er lille – open source-prisen tipper vægten.

På Claw-Eval Pass@3 vinder MiMo over GPT-5.4 og Gemini 3.1 Pro.

Svagere på HLE og GDPVal-AA, der tester bred viden. MiMo er coding-fokuseret, ikke generalist. Det er en fordel til softwareudvikling.

MiMo mod DeepSeek V4 Pro: Open source-valget

To open source-giganter kæmper om developere, der vil have top-kodning uden API-regninger. Begge MIT-licenseret på HuggingFace.

Kodningspræstation er tæt:

SWE-Bench Pro: MiMo 57,2 vs DeepSeek 55,4 (+1,8 til MiMo)
Terminal-Bench 2.0: MiMo 68,4 vs 67,9 (uafgjort)
SWE-Bench Verified: DeepSeek 80,6 vs MiMo 78,9 (+1,7 til DeepSeek)

Ingen klar vinder. Forskellige profiler.

Størst forskel: Parametereffektivitet

DeepSeek V4 Pro: 49B aktive af 1,6T totalt pr. token
MiMo-V2.5-Pro: 42B aktive af 1,02T totalt

MiMo sparer ressourcer. Mindre hukommelse, hurtigere inference, lavere omkostninger ved self-hosting eller edge.

Hvad er nyt i V2.5-Pro

Springet fra MiMo-V2-Flash er stort:

Langsigtede sammenhæng: Holder trit over hundredvis af trin i kompilator og video-editor.
Agent-evner: Planlægger, itererer, finder fejl og rettter selv. Kompilator-regressionen beviser det.
Tool calls i masse: Over 1.000 uden tab af kvalitet. Video-editoren ramte 1.868 og leverede.

Hvorfor det ændrer din tech-stack

Til startups eller små teams ændrer MiMo-V2.5-Pro spillet:

Pris: Ingen token-afgifter. Kør på egen infra.
Hastighed: Effektiv på standard-hardware.
Sikkerhed: Kode bliver i dit netværk.
Tilpasning: Fine-tune til din niche.
Fokus: Optimeret til kodning, ikke alt muligt.

Med Vibe Hosting eller lignende cloud kan du binde MiMo ind i din pipeline. Automatisk kodegenerering uden eksterne API'er.

Det store billede

Open source AI handler om kontrol, forudsigelige omkostninger og dine egne værktøjer. MiMo, der scorer perfekt på kompilator og bygger video-editor på én gang, er forbi demo-fasen. Det er produktionsklart.

Spørgsmålet er ikke, om det matcher Claude eller GPT. Det er, om din model skal være det – og hvad det åbner, når du styrer inference.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DE ZH-HANS EN