Xiaomin MiMo-V2.5-Pro auki lähteeksi – muuttaa käsitystä "riittävän hyvästä" AI-koodauksessa
Kun malli hoitaa opiskelijoiden viikkojen duunin tunnissa
Hetki, jolloin huomaat AI-maailman muuttuneen, osuu yllättäen. Meille se tuli, kun kuulimme Xiaomin uuden koodausmallin ratkaisseen Pekingin yliopiston koko lukukauden Rust-kääntäjäprojektin 4,3 tunnissa. Ei päivissä. Ei virheillä, jotka vaatisivat ihmisen korjauksia. Täydellinen tulos: 233/233 piilotetusta testistä, joita malli ei ollut ennen nähnyt.
Ja kyllä – se on nyt avoimen lähdekoodin saatavilla.
Tämä ei ole pelkkä otsikkojuttu. Kyse on selvästä kuilusta opiskelijoiden viikkojen työn ja tekoälyn iltapäivän tuotoksen välillä. Vielä isompi kysymys kehittäjille: mitä tämä tarkoittaa koodaukselle arjessa?
Pidemmälle kuin benchmarkit: Todelliset testit
Benchmarkit antavat suuntaa. Ne eivät kerro kaikkea. Siksi Xiaomin kolme kovaa koetta paljastavat MiMo-V2.5-Pro:n todelliset taidot.
Kääntäjätesti mentiin läpi virheettömästi. Ei takapakkeja.
Videosovelluksen rakentaminen oli seuraava haaste. Malli sai epämääräisen kehotteen: tee videosovellus. Ei tarkkoja speksjä. Se käytti 11,5 tuntia, teki 1 868 työkalukutsua ja toimitti toimivan desktop-sovelluksen. Moniraita-aikajana, leikkaus, siirtymät, äänisekoitus ja vienti. 8 192 riviä tuotantokoodia hatarasta ideasta. Ei pelkkää autocompletia. Todellista agenttimaista päättelyä.
Analogipiirisuunnittelu menee alueelle, jonne harva AI-benchmark ulottuu. Graduate-tason sähkötekniikkaa: matkapudotusvolttregulaattori 180 nm TSMC-prosessissa. MiMo integroi ngspice-työkalun, itertoi parametreja ja osui kaikkiin tavoitteisiin tunnissa. Jännitesäätö parani 22-kertaiseksi, kuormasäätö 17-kertaiseksi. Tällainen optimointi vaatii yleensä kokeneen insinöörin ja kahvia.
Yhteistä näille on itsekorjaus massiivisessa mittakaavassa. Kääntäjäprojektissa virhe ilmestyi kohdassa 512. Malli diagnosoi, löysi rikkoutuneen refaktoroinnin ja korjasi itse. Tuhansien työkalukutsujen yli se piti kontekstin kasassa. Siinä on ero "cool benchmark" ja "toimiva koodi" välillä.
Numeroiden tarkistus benchmarkeissa
Tulokset puhuvat puolestaan – mutta kontekstissa.
SWE-Bench Prossa MiMo-V2.5-Pro saa 57,2 pistettä. Se on Claude Opus 4.6:n (57,3) ja GPT-5.4:n (57,7) kintereillä.
Terminal-Bench 2.0:ssa MiMo voittaa Clauden (68,4 vs 65,4). Eri mallit loistavat eri paikoissa.
SWE-Bench Verifiedissä Claude johtaa niukasti (80,8 vs 78,9), mutta ero on pieni – avoimen koodin etu painaa.
Claw-Eval Pass@3:ssa MiMo päihittää GPT-5.4:n ja Gemini 3.1 Pron.
MiMo häviää yleisissä testeissä kuten HLE ja GDPVal-AA, jotka mittaavat laajaa päättelyä. Se on tarkoituksellista. MiMo on koodausspesialisti, ei yleismalli. Se on vahvuus ohjelmistokehityksessä.
MiMo vs DeepSeek V4 Pro: Avoimen koodin valinta kehittäjille
Kaksi avoimen lähdekoodin jättiä kilpailee kehittäjien suosiosta: huipputasoa ilman API-maksuja. Molemmat MIT-lisenssillä HuggingFacessa.
Koodaustulokset ovat lähellä:
- SWE-Bench Pro: MiMo 57,2 vs DeepSeek 55,4 (MiMo +1,8)
- Terminal-Bench 2.0: MiMo 68,4 vs DeepSeek 67,9 (tasapeli)
- SWE-Bench Verified: DeepSeek 80,6 vs MiMo 78,9 (DeepSeek +1,7)
Ei selkeää voittajaa. Eri vahvuuksia.
Ero on parametritehokkuudessa:
- DeepSeek V4 Pro: 49B parametriä/token 1,6T kokonaismäärästä
- MiMo-V2.5-Pro: 42B/token 1,02T kokonaismäärästä
MiMo kuluttaa vähemmän muistia, pyörii nopeammin ja on halvempi self-hostata. On-prem tai edge-ympäristöissä ero kasvaa.
Mitä V2.5-Pro toi mukanaan
Hyppy MiMo-V2-Flashista V2.5-Prohon on iso:
Pitkäjänteinen konteksti: Kääntäjä ja videosovellus vaativat satoja vaiheita. Malli pitää langan päässä.
Agenttitaidot: Suunnittelee, itertoi, diagnosoi ja korjaa itse. Kääntäjävirheen fiksaus on esimerkki.
Työkalukutsut skaalautuvat: Yli 1 000 kutsua ilman heikentymistä. Videosovellus teki 1 868 ja toimitti.
Miksi tämä muuttaa pinosi
Startupissa tai pienessä tiimissä MiMo-V2.5-Pro muuttaa laskutoimitusta:
- Hinta: Ei token-maksuja. Pyöritä omalla infraalla.
- Nopeus: Tehokkuus tuo nopeaa inferenssiä tavallisella raudalla.
- Yksityisyys: Koodi pysyy omassa verkossa.
- Säätö: Fine-tune omalle alalle.
- Koodausvoima: Optimoitu suoraan tarpeisiisi.
Vibe Hostingin kaltaisilla alustoilla voit upottaa MiMo:n suoraan deployment-putkeen. Automaattista koodigenerointia ilman ulkoisia API-riippuvuuksia.
Kokonaiskuva
Avoin AI ei ole "ilmainen Claude". Se on kontrollia, ennakoitavia kuluja ja omia työkaluja. MiMo:n täydellinen kääntäjätesti ja toimiva videosovellus samassa sessiossa tarkoittavat, että ollaan demojen ohi. Tämä on tuotantovalmiit välineet.
Kysymys ei ole siitä, onko se Clauden tasoa. Kyse on siitä, tarvitsetko omaa mallia – ja mitä se mahdollistaa, kun hallitset inferenssin itse.