Создаём локального ИИ-ассистента для кодинга на MacBook Pro: полный разбор
Локальный ИИ-ассистент для кода на MacBook Pro: полный разбор
Многие разработчики мечтают запустить мощный ИИ для кода прямо на своем железе. Причины просты: скорость без задержек, полная приватность, никаких платежей за API. Но на деле все не так гладко. Большинство застревает на этапе настройки.
Разберем, как запустить рабочий coding AI локально. Что ломается. И как это починить.
Зачем локальный ИИ?
Облачные помощники удобны. Но у них минусы. Код улетает в интернет. Лимиты запросов. Плата за токены. Плюс задержки на каждый автокомплит.
Если вы работаете с закрытыми проектами или просто устали от подписок, локальная установка — идеал. MacBook Pro превращается в личный ИИ-сервер. Без утечек данных. Без счетов. Без внешних сервисов.
Главное — подходящее железо. И правильные модели с инструментами.
Требования к железу
Не всякий MacBook потянет. Нужны:
- Apple Silicon (чипы M-серии)
- Минимум 32 ГБ unified memory (лучше 48 ГБ)
- Время на эксперименты
Unified memory — ключевой плюс Apple Silicon. CPU и GPU делят одну память. Нет копирования данных. Для inference LLM это ускоряет все в разы.
Выбор модели
Здесь большинство ошибается. Не все модели подходят для локального запуска.
Для MacBook с 48 ГБ ищите:
- Умные для реальных задач по коду
- Оптимизированные под Apple Silicon (не общие GGUF)
- Проверенные на длинных диалогах (контекст важен)
В 2024/2025 топ — свежие Qwen или аналоги на 27B–35B параметров. Смотрите бенчмарки вроде SWE-bench Verified. Они проверяют фикс багов, а не простые вопросы.
Хороший вариант — MoE-модели. Общий размер 35B, но активируется малая часть. Меньше нагрузки на память, качество на уровне.
Подводные камни: почему первый запуск упадет
Делюсь опытом из ошибок.
Проблема с mlx-lm server
MLX от Apple — самый быстрый фреймворк на Apple Silicon. На 20–30% опережает llama.cpp. Логично начать с mlx-lm.server.
Что происходит: сервер грузится. Несколько ответов. Потом краш на Metal memory error. KV cache (память внимания) растет без лимита. Занимает всю GPU, система убивает процесс.
Флагов вроде --max-kv-size в сервере нет. Они только в инструменте для одиночных генераций.
Вывод: mlx-lm супер для разовых тестов. Для сервера не годится.
Переход на Ollama
Ollama решает проблему. Фиксирует контекст. KV cache не разрастается. Нет крашей. Стабильно.
Ловушка: по умолчанию тянет общие GGUF. Не оптимизированные под Apple Silicon. Сервер работает, но код генерит криво. Слабая логика. Повторы токенов. Из-за агрессивной квантизации для совместимости.
Еще засада — дефолтные параметры. presence_penalty 1.5 душит повторения. В коде имена переменных повторяться должны, а модель их избегает.
Рабочий рецепт
Нужны:
- Ollama как runtime — стабильно, поддержка активная
- Модели с оптимизацией для Apple Silicon — ищите тег
mxfp8 - Свой Modelfile для тонкой настройки
Пошагово:
# Установка Ollama
brew install ollama
# Запуск сервера с сетью и keep-alive
OLLAMA_HOST=0.0.0.0 OLLAMA_KEEP_ALIVE=24h ollama serve
Тянем модель:
ollama pull qwen3.6:35b-a3b-mxfp8
mxfp8 — не просто ярлык. Это разница между "бред" и "полезно".
Modelfile для тюнинга:
FROM qwen3.6:35b-a3b-mxfp8
PARAMETER num_ctx 16384
PARAMETER presence_penalty 0
PARAMETER temperature 0.7
Сборка и запуск:
ollama create my-coder -f Modelfile
ollama run my-coder
Интеграция с IDE
Сервер на http://localhost:11434 совместим с OpenAI API. Любые клиенты подключаются.
Расширения для VS Code, Vim, Neovim, JetBrains — все работает. ИИ выглядит как облачный сервис.
Реальные затраты
Минусы:
- Время на сетап: тесты, отладка, неверные модели
- Шум: вентиляторы крутятся, GPU нагружен
- Одинモデル: не переключаешься между GPT-4 и Claude мгновенно
Плюсы:
- Приватность: код не уходит с машины
- Бесплатно: ноль рублей за inference
- Стабильная скорость: без сетевых лагов
- Свобода: меняй промпты, параметры, без цензуры
Что дальше?
Это старт локальной ИИ-инфраструктуры. Далее:
- Тестируй Llama 3, Mistral, открытые альтернативы
- Дообучи на своем коде
- Специализированные модели под языки или фреймворки
- Встрой в CI/CD
Локальный ИИ уже реален. MacBook Pro справляется. Модели крутые. Инструменты готовы.
Не жди идеала. Запускай.