Xiaomi ouvre MiMo-V2.5-Pro : l’IA pour coder qui redéfinit le « bon marché efficace »
Quand un modèle IA bouffe un projet d'étudiants en quelques heures
Un jour, tu te rends compte que l'IA a franchi un cap. Chez nous, c'est arrivé avec le nouveau modèle de code de Xiaomi. Il a bouclé un projet de compilateur Rust – celui que l'Université de Pékin file à ses étudiants pour un semestre entier – en 4,3 heures. Pas de bugs à corriger. Score parfait : 233/233 sur un test caché, jamais vu avant.
Et oui, c'est open source.
Ça va plus loin qu'un simple titre choc. On mesure l'écart réel : des semaines d'efforts étudiants contre un après-midi d'IA bien rodée. Surtout, ça pose la question clé pour tout dev : comment ça change la façon de coder ?
Au-delà des benchmarks : des cas concrets qui claquent
Les benchmarks, c'est bien. Mais ça reste limité. Les trois défis de Xiaomi sur MiMo-V2.5-Pro racontent une histoire plus vraie.
Le test compilateur, on l'a dit : zéro faute, pas de retouche humaine.
Le défi éditeur vidéo passe au niveau supérieur. Prompt flou : "fais un éditeur vidéo". Pas de specs précises. Le modèle chainé 1 868 appels d'outils en 11,5 heures. Résultat ? Une app desktop complète : timelines multi-pistes, coupes, fondues, mix audio, export. 8 192 lignes de code pro. Pas du complétion boostée. Du raisonnement agentique pur.
La conception de circuit analogique tape dans du grad-level en électronique. Un régulateur low-dropout sur process TSMC 180nm. MiMo s'interface ngspice, itère les params, et atteint tous les objectifs en une heure. Régulation ligne x22, charge x17. Du multi-boucles qui demande un ingénieur et du café fort.
Le fil rouge ? L'auto-correction à grande échelle. Sur le compilateur, bug au tour 512 : le modèle diagnostique, fixe le pass défaillant, repart sans aide. Cohérence sur des centaines d'appels outils. Ça fait le pont entre "joli score" et "code qui shippe".
Les chiffres, avec du contexte
Les scores comptent. Voyons-les en perspective.
Sur SWE-Bench Pro, MiMo-V2.5-Pro fait 57,2. À 0,5 point de Claude Opus 4.6 (57,3) et GPT-5.4 (57,7). Du top niveau.
Sur Terminal-Bench 2.0, MiMo gagne contre Claude (68,4 vs 65,4). Chaque modèle a ses forces.
SWE-Bench Verified : Claude devant (80,8 vs 78,9), mais l'écart fond avec l'avantage open source.
Claw-Eval Pass@3 : MiMo surpasse GPT-5.4 et Gemini 3.1 Pro.
Faiblesses ? HLE ou GDPVal-AA, qui testent le raisonnement général plus que le code pur. MiMo est fait pour coder en profondeur, pas pour tout faire. C'est un choix malin.
MiMo contre DeepSeek V4 Pro : le duel open source pour devs
Deux mastodontes open source (licence MIT, sur HuggingFace) visent les devs qui veulent du frontier sans abo API.
Performances code :
- SWE-Bench Pro : MiMo 57,2 vs DeepSeek 55,4 (+1,8)
- Terminal-Bench 2.0 : 68,4 vs 67,9 (match nul)
- SWE-Bench Verified : DeepSeek 80,6 vs 78,9 (+1,7)
Pas de boss clair. Des atouts variés.
Différence clé : l'efficacité params.
- DeepSeek V4 Pro : 49B actifs/token sur 1,6T total.
- MiMo-V2.5-Pro : 42B/token sur 1,02T.
MiMo consomme moins. Moins de RAM, inférence rapide, coûts infra bas. Idéal pour self-hosting ou edge.
Les sauts de V2.5-Pro
De V2-Flash à V2.5-Pro, c'est pas du petit pas :
- Cohérence long terme : compilateur et éditeur vidéo sur des centaines d'étapes, sans déraillement.
- Capacités agent : planifie, itère, debugge, corrige solo. Preuve sur le bug compilateur.
- Appels outils massifs : plus de 1 000 sans perte. 1 868 pour l'éditeur, et ça marche.
Impact sur ton stack tech
Pour une startup ou équipe light, MiMo-V2.5-Pro open source tout change :
- Coût : zéro token fee. Ton infra, tes règles.
- Vitesse : efficace sur hardware standard.
- Privacy : code reste chez toi.
- Custom : fine-tune pour ton domaine.
- Focus code : optimisé pour ce qui compte.
Sur Vibe Hosting ou cloud similaire, intègre-le direct dans ton pipeline. Génération et opti code auto, sans API externe. Parfait pour un domain bien hosté avec SSL et DNS solides.
Le vrai enjeu
L'open source IA, c'est pas du "Claude gratuit". C'est du contrôle, des coûts fixes, des outils à toi. MiMo qui torche un compilateur parfait puis un éditeur vidéo en une session ? On est en prod-ready.
La question : as-tu besoin de ton modèle ? Et qu'est-ce que ça débloque quand tu gères l'inférence ? Pour tes projets domain et hosting, imagine l'automatisation.