Xiaomi открыла MiMo-V2.5-Pro: новая планка для ИИ в кодинге

Апр 28, 2026 ai coding models open source development machine learning compiler design software engineering deployment infrastructure developer tools

Когда ИИ собирает компилятор за часы, а студенты тратят недели

Представьте: вы узнаёте, что новая модель от Xiaomi справилась с проектом по Rust-компилятору из Пекинского университета. Тем самым, что студенты делают весь семестр. Время? 4,3 часа. Без ошибок. Без правок от человека. Полный успех: 233 из 233 тестов на секретном наборе, которого модель раньше не видела.

И да, код открыт.

Это не просто цифры. Это разрыв между студенческим трудом и возможностями ИИ. Главное — вопрос для каждого разработчика: как теперь строить софт?

За тестами — реальные задачи

Бенчмарки помогают. Но они не всё. Xiaomi проверили MiMo-V2.5-Pro на трёх серьёзных заданиях. Вот что вышло.

Компилятор — уже сказали: идеал, без сбоев.

Видеоредактор — дали расплывчатый запрос: "сделай редактор видео". Без ТЗ. Без подсказок. Модель потратила 11,5 часа, сделала 1868 вызовов инструментов и выдала рабочее приложение. С таймлайнами, обрезкой клипов, переходами, миксом аудио и экспортом. 8192 строки готового кода. Это не автодополнение. Это полноценный агент.

Аналоговый чип — уровень аспирантуры по электронике. Низковольтный стабилизатор на 180nm TSMC. Модель работала с ngspice, крутила параметры и добилась цели за час. Регулировка по линии улучшилась в 22 раза. По нагрузке — в 17. Обычно это работа опытного инженера с кофе.

Общее во всём — самоисправление на длинной дистанции. В компиляторе на 512-м шаге вылезла регрессия. Модель нашла проблему в рефакторинге и починила сама. Тысячи вызовов — и контекст не теряется. От демо к реальному коду.

Цифры с оглядкой на суть

Результаты важны. Смотрим их в контексте.

На SWE-Bench Pro — 57,2. Рядом с Claude Opus 4.6 (57,3) и GPT-5.4 (57,7). Топ-уровень.

На Terminal-Bench 2.0 — MiMo лидирует: 68,4 против 65,4 у Claude.

SWE-Bench Verified — Claude впереди (80,8 vs 78,9), но разница минимальна. Open source выигрывает по цене.

Claw-Eval Pass@3 — MiMo лучше GPT-5.4 и Gemini 3.1 Pro.

Слабости? HLE и GDPVal-AA — там нужна общая эрудиция, а не кодинг. MiMo заточен под разработку. Это плюс для софта.

MiMo против DeepSeek V4 Pro: выбор для своих серверов

Два open source монстра для кодеров без API-расходов. Оба под MIT, на HuggingFace.

По кодингу — паритет:

SWE-Bench Pro: MiMo 57,2, DeepSeek 55,4 (+1,8)
Terminal-Bench 2.0: 68,4 vs 67,9 (ничья)
SWE-Bench Verified: DeepSeek 80,6, MiMo 78,9 (+1,7)

Нет абсолютного лидера. Разные фичи.

Ключ — эффективность:

DeepSeek V4 Pro: 49B активных из 1,6T на токен
MiMo-V2.5-Pro: 42B из 1,02T

MiMo жрёт меньше памяти, быстрее инференс, дешевле хостинг. Идеал для VPS или on-premise.

Что нового в V2.5-Pro

Прыжок от V2-Flash к V2.5-Pro — не мелочь:

Долгий фокус: Компилятор и редактор — сотни шагов без путаницы.
Агентность: Планирует, правит ошибки, чинит сам. Видно по регрессии.
Масштаб инструментов: 1000+ вызовов без сбоев. Видеоредактор — 1868, и работает.

Зачем это вашему стеку

В стартапе или маленькой команде MiMo-V2.5-Pro меняет расклад:

Бесплатно: Без токен-платежей. Свой сервер.
Быстро: На обычном железе летает.
Приватно: Код не уходит в облако.
Гибко: Дообучите под домен.
По делу: Только кодинг, без лишнего.

На Vibe Hosting или похожем VPS интегрируйте в пайплайн. Автогенерация и оптимизация без внешних API.

Итог

Open source ИИ — это контроль и предсказуемые траты. MiMo-V2.5-Pro прошёл компилятор на 100% и слепил видеоредактор за сессию. Это не шоу. Это инструмент для продакшена.

Вопрос не в сравнении с Claude или GPT. А в том, нужен ли ваш ИИ — и что он даст под вашим контролем.

Read in other languages:

BG EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN