Xiaomis MiMo-V2.5-Pro blir open source – nu räcker "bra nog" för AI-kodning
När AI-modellen klarar uppgifter på timmar som tar studenter veckor
Det finns ett ögonblick när du inser att AI-världen har förändrats på riktigt. För oss kom det när vi hörde att Xiaomis nya kodningsmodell fixade Peking Universitets heltidsprojekt – en Rust-kompilator för hela terminen – på 4,3 timmar. Inte dagar. Inte med buggar som behöver mänsklig fix. Full pott: 233 av 233 tester på en dold testsvit som modellen aldrig sett förut.
Och ja, den är open source nu.
Det här handlar inte bara om rubriken. Det visar ett glapp mellan vad studenter kämpar med i veckor och vad en smart AI klarar på en eftermiddag. Ännu viktigare: hur påverkar det hur vi bygger mjukvara?
Mer än benchmarks: Vad som händer i verkligheten
Benchmarks är bra. Men de räcker inte. Därför sticker Xiaomis tre tuffa tester ut för MiMo-V2.5-Pro.
Kompilatortestet har vi nämnt – perfekt resultat, inga efterfixar. Men modellen slutade inte där.
Videoredigerarutmaningen blir riktigt spännande. Xiaomi gav en lös prompt: bygg en videoredigerare. Inga detaljer. Inga specar. Modellen la 11,5 timmar på 1 868 tool calls och levererade en fungerande desktop-app. Multi-track-tidslinje, klippning, övergångar, ljudmix och export. 8 192 rader produktionskod från en vag idé. Det är inte bara autokomplettering. Det är äkta agentic tänkande.
Analog kretsdesign går in på område som de flesta AI-tester skippar. Graduate-nivå elektroteknik: en low-dropout regulator i 180nm TSMC-process. MiMo-V2.5-Pro jobbade med ngspice, itererade parametrar och träffade alla mål på en timme. Line regulation blev 22 gånger bättre. Load regulation 17 gånger. Sånt här kräver normalt en ingenjör med starkt kaffe.
Gemensamt för alla tre? Inte bara kraft. Utan självkorrektion i stor skala. Under kompileringsprojektet dök en regression upp vid steg 512. Modellen diagnostiserade, hittade felet i refactoring-passet och fixade utan hjälp. Tusentals tool calls, men kontexten höll. Det är skillnaden mellan benchmark och kod som funkar.
Siffrorna bakom – med perspektiv
Låt oss kolla resultaten. De betyder något, men med rätt kontext.
På SWE-Bench Pro får MiMo-V2.5-Pro 57,2 poäng. Nästan jämbördig med Claude Opus 4.6 (57,3) och GPT-5.4 (57,7). Toppnivå.
På Terminal-Bench 2.0 slår MiMo Claude Opus (68,4 mot 65,4). Olika modeller har olika styrkor.
På SWE-Bench Verified leder Claude Opus (80,8 mot 78,9), men gapet är litet. Open source-priset väger tyngre.
På Claw-Eval Pass@3 toppar MiMo både GPT-5.4 och Gemini 3.1 Pro.
Svagare på HLE och GDPVal-AA, som testar bred resonemang mer än djup kodning. Det är medvetet. MiMo-V2.5-Pro är kodfokuserad, inte en generalist. Det är en styrka för mjukvarubygge.
MiMo mot DeepSeek V4 Pro: Open source-valet för devs
Två open source-jättar slåss om dev-marknaden: frontier-kodning utan API-kostnader. Båda MIT-licensade på HuggingFace.
Kodprestanda är tight:
- SWE-Bench Pro: MiMo 57,2 vs DeepSeek 55,4 (+1,8 för MiMo)
- Terminal-Bench 2.0: MiMo 68,4 vs DeepSeek 67,9 (likvärdigt)
- SWE-Bench Verified: DeepSeek 80,6 vs MiMo 78,9 (+1,7 för DeepSeek)
Ingen klar vinnare. Olika för olika uppgifter.
Största skillnaden? Parameter-effektivitet:
- DeepSeek V4 Pro: 49B parametrar per token av 1,6T totalt
- MiMo-V2.5-Pro: 42B parametrar per token av 1,02T totalt
MiMo använder mindre, vilket ger lägre minnesbehov, snabbare inference och billigare infra. Perfekt för on-prem eller edge.
Vad är nytt i V2.5-Pro
Uppdateringen från MiMo-V2-Flash till V2.5-Pro är stor:
Långsiktig koherens: Kompileraren och videoredigeraren krävde hundratals steg. Modellen tappade inte tråden.
Agentic förmåga: Planerar, itererar, hittar fel och fixar själv. Regressionen i kompileraren visar det.
Tool call-skalning: Över 1 000 calls utan problem. Videoprojektet: 1 868 calls, färdig app.
Varför det påverkar din tech stack
För startups eller små team förändrar open source MiMo-V2.5-Pro spelet:
- Kostnad: Inga token-avgifter. Kör på egen hårdvara.
- Hastighet: Effektivitet ger snabbare svar på vanlig hårdvara.
- Integritet: Kod stannar i ditt nätverk.
- Anpassning: Fine-tune för din domän.
- Kodfokus: Optimerad för utveckling, inte allt möjligt.
Med Vibe Hosting eller liknande kan du köra MiMo-V2.5-Pro i din pipeline för auto-kodning och optimering. Inga externa API.
Den stora bilden
Open source AI handlar inte om gratis Claude. Det är kontroll, förutsägbara kostnader och egna verktyg. MiMo-V2.5-Pros perfekta kompilerare och fungerande videoredigerare visar: vi är förbi demovideon. Det här är produktionsredo.
Frågan är inte om det matchar Claude eller GPT. Utan om din modell räcker – och vad det öppnar när du styr inference.