Xiaomi открыла MiMo-V2.5-Pro: новая планка для ИИ в кодинге
Когда ИИ собирает компилятор за часы, а студенты тратят недели
Представьте: вы узнаёте, что новая модель от Xiaomi справилась с проектом по Rust-компилятору из Пекинского университета. Тем самым, что студенты делают весь семестр. Время? 4,3 часа. Без ошибок. Без правок от человека. Полный успех: 233 из 233 тестов на секретном наборе, которого модель раньше не видела.
И да, код открыт.
Это не просто цифры. Это разрыв между студенческим трудом и возможностями ИИ. Главное — вопрос для каждого разработчика: как теперь строить софт?
За тестами — реальные задачи
Бенчмарки помогают. Но они не всё. Xiaomi проверили MiMo-V2.5-Pro на трёх серьёзных заданиях. Вот что вышло.
Компилятор — уже сказали: идеал, без сбоев.
Видеоредактор — дали расплывчатый запрос: "сделай редактор видео". Без ТЗ. Без подсказок. Модель потратила 11,5 часа, сделала 1868 вызовов инструментов и выдала рабочее приложение. С таймлайнами, обрезкой клипов, переходами, миксом аудио и экспортом. 8192 строки готового кода. Это не автодополнение. Это полноценный агент.
Аналоговый чип — уровень аспирантуры по электронике. Низковольтный стабилизатор на 180nm TSMC. Модель работала с ngspice, крутила параметры и добилась цели за час. Регулировка по линии улучшилась в 22 раза. По нагрузке — в 17. Обычно это работа опытного инженера с кофе.
Общее во всём — самоисправление на длинной дистанции. В компиляторе на 512-м шаге вылезла регрессия. Модель нашла проблему в рефакторинге и починила сама. Тысячи вызовов — и контекст не теряется. От демо к реальному коду.
Цифры с оглядкой на суть
Результаты важны. Смотрим их в контексте.
На SWE-Bench Pro — 57,2. Рядом с Claude Opus 4.6 (57,3) и GPT-5.4 (57,7). Топ-уровень.
На Terminal-Bench 2.0 — MiMo лидирует: 68,4 против 65,4 у Claude.
SWE-Bench Verified — Claude впереди (80,8 vs 78,9), но разница минимальна. Open source выигрывает по цене.
Claw-Eval Pass@3 — MiMo лучше GPT-5.4 и Gemini 3.1 Pro.
Слабости? HLE и GDPVal-AA — там нужна общая эрудиция, а не кодинг. MiMo заточен под разработку. Это плюс для софта.
MiMo против DeepSeek V4 Pro: выбор для своих серверов
Два open source монстра для кодеров без API-расходов. Оба под MIT, на HuggingFace.
По кодингу — паритет:
- SWE-Bench Pro: MiMo 57,2, DeepSeek 55,4 (+1,8)
- Terminal-Bench 2.0: 68,4 vs 67,9 (ничья)
- SWE-Bench Verified: DeepSeek 80,6, MiMo 78,9 (+1,7)
Нет абсолютного лидера. Разные фичи.
Ключ — эффективность:
- DeepSeek V4 Pro: 49B активных из 1,6T на токен
- MiMo-V2.5-Pro: 42B из 1,02T
MiMo жрёт меньше памяти, быстрее инференс, дешевле хостинг. Идеал для VPS или on-premise.
Что нового в V2.5-Pro
Прыжок от V2-Flash к V2.5-Pro — не мелочь:
- Долгий фокус: Компилятор и редактор — сотни шагов без путаницы.
- Агентность: Планирует, правит ошибки, чинит сам. Видно по регрессии.
- Масштаб инструментов: 1000+ вызовов без сбоев. Видеоредактор — 1868, и работает.
Зачем это вашему стеку
В стартапе или маленькой команде MiMo-V2.5-Pro меняет расклад:
- Бесплатно: Без токен-платежей. Свой сервер.
- Быстро: На обычном железе летает.
- Приватно: Код не уходит в облако.
- Гибко: Дообучите под домен.
- По делу: Только кодинг, без лишнего.
На Vibe Hosting или похожем VPS интегрируйте в пайплайн. Автогенерация и оптимизация без внешних API.
Итог
Open source ИИ — это контроль и предсказуемые траты. MiMo-V2.5-Pro прошёл компилятор на 100% и слепил видеоредактор за сессию. Это не шоу. Это инструмент для продакшена.
Вопрос не в сравнении с Claude или GPT. А в том, нужен ли ваш ИИ — и что он даст под вашим контролем.