Xiaomi slipper MiMo-V2.5-Pro fri – nå redefinerer den hva «god nok» egentlig betyr for AI-koding

Apr 28, 2026 ai coding models open source development machine learning compiler design software engineering deployment infrastructure developer tools

Når AI-modellen din løser oppgaver på timer som tar studenter uker

Et øyeblikk endrer alt i AI-verdenen. For oss kom det da vi hørte at Xiaomis nye kodingsmodell knuste Pekings universitets semesteroppgave i Rust-kompilator. Ferdig på 4,3 timer. Ikke dager. Ikke med feil som trengte menneskelig rydding. Perfekt resultat: 233 av 233 tester på ukjent testsett.

Og ja – den er open source nå.

Dette går utover klikkbaityr. Det viser et klart gap mellom studenters ukeslanger og hva en AI klarer på en ettermiddag. Større spørsmål: Hvordan endrer dette måten vi bygger kode på?

Mer enn tall: Hva som faktisk skjer

Benchmarks er bra. De er ikke hele bildet. Derfor rocker Xiaomis tre store tester for MiMo-V2.5-Pro.

Kompilator-testen kjenner du – null feil, full score. Men modellen stoppet ikke der.

Videoredigerings-utfordringen blir spennende. Vage instruksjoner: Lag en videoredigerer. Ingen detaljert spec. Modellen brukte 11,5 timer på 1868 tool calls. Resultatet? En fungerende desktop-app med multitrack-tidslinje, klipping, overganger, lydmikser og eksport. 8192 linjer produksjonskode fra en løs idé. Dette er ekte agent-tenking, ikke bare autofullfør.

Analog kretsdesign går inn i ekspert-territorium. Graduate-nivå elektroteknikk: Lavdropout-regulator i 180nm TSMC-prosess. MiMo-V2.5-Pro koblet til ngspice, justerte parametre og traff alle mål på en time. Line regulation bedret 22 ganger. Load regulation 17 ganger. Slike iterasjoner krever normalt ingeniør og koffein.

Fellesnevneren? Selvkorreksjon i stor skala. I kompilatoren fikset den en feil ved steg 512 selv – diagnostiserte, fant refactoring-buggen og fortsatte. Tusenvis av tool calls uten å miste grepet. Det gjør "kul benchmark" til "kode som shippes".

Benchmarks i kontekst

La oss se på tallene – med bakgrunn.

På SWE-Bench Pro scorer MiMo-V2.5-Pro 57,2. Nesten lik Claude Opus 4.6 (57,3) og GPT-5.4 (57,7). Toppklasse.

På Terminal-Bench 2.0 slår MiMo Claude (68,4 mot 65,4). Forskjellige styrker.

SWE-Bench Verified: Claude leder (80,8 mot 78,9), men marginen er liten. Open source-prisen tipper balansen.

På Claw-Eval Pass@3 knuser MiMo GPT-5.4 og Gemini 3.1 Pro.

Svakere på HLE og GDPVal-AA, som tester generell resonnering. MiMo er kode-fokusert, ikke allrounder. Det er styrken for utviklere.

MiMo mot DeepSeek V4 Pro: Open source-valget ditt

To open source-konger kjemper om dev-markedet: Frontier-kode uten API-regninger. Begge MIT-lisens, på HuggingFace i dag.

Kode-ytelse er jevnt:

SWE-Bench Pro: MiMo 57,2 vs DeepSeek 55,4 (+1,8 til MiMo)
Terminal-Bench 2.0: MiMo 68,4 vs 67,9 (uavgjort)
SWE-Bench Verified: DeepSeek 80,6 vs MiMo 78,9 (+1,7 til DeepSeek)

Ingen klar vinner. Bare ulike profiler.

Stort gap i effektivitet:

DeepSeek V4 Pro: 49B aktive parametre per token (av 1,6T totalt)
MiMo-V2.5-Pro: 42B aktive (av 1,02T totalt)

MiMo bruker mindre ressurser. Lavere minne, raskere inference, billigere infra. Perfekt for on-prem eller edge.

Hva er nytt i V2.5-Pro

Opp fra MiMo-V2-Flash er ikke smått:

Langsiktig sammenheng: Holder tråden over hundrevis steg i kompilator og video-app.
Agent-ferdigheter: Planlegger, itererer, fikser feil selv. Kompilator-regresjonen beviser det.
Tool calls i bulk: Over 1000 calls uten kollaps. Video-prosjektet traff 1868 og leverte.

Hvorfor dette rocker din tech-stack

For startups eller slanke team endrer MiMo-V2.5-Pro spillet:

Kostnad: Null token-avgift. Kjør på egen hardware.
Hastighet: Effektiv på vanlig jern.
Personvern: Kode forblir i ditt nettverk.
Tilpasning: Finetun for ditt domene.
Kode-dybde: Optimalisert for utvikling, ikke alt mulig.

Med Vibe Hosting eller lignende kan du bake MiMo rett inn i deploy-pipeline. Automatisk kodegen og optimalisering – uten eksterne API-er.

Det store bildet

Open source AI handler om kontroll, forutsigbare kostnader og egne verktøy. MiMo som nailer kompilator og bygger videoredigerer på én økt? Vi er forbi demo-fasen. Dette er produksjonsklart.

Spørsmålet er ikke om det matcher Claude eller GPT. Det er om din modell gir deg frihet når du styrer inferencen selv.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NL HU IT FR ES DE DA ZH-HANS EN