Crea tu asistente de IA local para programar: Guía profunda en MacBook Pro
Crea tu asistente de IA para programar en local: Guía profunda con MacBook Pro
Muchos devs sueñan con ejecutar modelos de lenguaje grandes en su propia máquina. La idea seduce: respuestas rápidas, privacidad total y cero costos por API. El problema surge al pasar de la teoría a la práctica. Ahí es donde la mayoría se frustra.
Vamos a ver qué hace falta para montar un AI de código potente en local, los errores comunes y cómo solucionarlos.
¿Por qué optar por local?
Los asistentes en la nube son prácticos, sí. Pero tu código viaja por internet, chocas con límites de uso, pagas por token y cada sugerencia trae retraso.
Si manejas proyectos sensibles, trabajas en equipos paranoicos con la seguridad o estás harto de cuotas crecientes, un setup local lo cambia todo. Tu MacBook Pro se convierte en tu servidor AI privado. Sin depender de nadie, sin fugas de datos ni facturas inesperadas.
El requisito: hardware decente y saber elegir modelos y herramientas que rindan.
El hardware necesario
No cualquier MacBook sirve. Busca estos:
- Chips Apple Silicon (serie M)
- Mínimo 32 GB de memoria unificada (48 GB va mejor)
- Ganas de probar y ajustar
La memoria unificada de Apple Silicon es clave. CPU y GPU comparten el mismo espacio, sin mover datos de un lado a otro. Para inferencia de LLMs, esto acelera todo.
Selecciona el modelo adecuado
Aquí tropieza mucha gente. No todos los modelos valen para local ni son igual de listos.
En un MacBook de 48 GB, elige uno que sea:
- Inteligente para tareas reales de código
- Optimizado para Apple Silicon (olvida GGUF genéricos)
- Probado en charlas largas (la base importa tanto como el modelo)
En 2024/2025, apunta a variantes nuevas de Qwen o similares en 27B-35B parámetros. Revisa benchmarks como SWE-bench Verified, que mide fixes reales de bugs, no preguntas tontas.
No ignores modelos MoE. Pueden tener 35B parámetros totales, pero solo activan una parte por token. Menos memoria, misma calidad.
El lío de las herramientas: Tu primer intento fallará
Lecciones del camino duro.
El fallo del servidor mlx-lm
MLX de Apple vuela en Silicon, un 20-30% más rápido que llama.cpp. Pruebas mlx-lm.server, lógico.
Pasa esto: carga bien, responde un rato. Luego, en mitad de charla, crashea por error de memoria Metal. El KV cache (memoria de atención que crece con la conversación) no tiene límite. Agota la GPU y el sistema lo mata.
Buscas flags como --max-kv-size o --prompt-cache-size. No existen en el server, solo en generación única.
Conclusión: MLX brilla en pruebas rápidas. No lo uses para un server estable.
El giro a Ollama
Ollama lo arregla con ventana de contexto fija. KV cache controlado. Sin caídas. Estabilidad pura.
Pero ojo: por defecto, baja GGUF genéricos, no optimizados para Apple. Funciona, pero el código sale flojo, razonamiento pobre, repeticiones raras. Culpa de cuantización agresiva para compatibilidad, no eficiencia.
Otro truco: penalizaciones por defecto. Algunos traen presence_penalty 1.5, que evita repeticiones... incluso de nombres de variables que sí deben repetirse en código.
Lo que sí funciona
Necesitas:
- Ollama como base (estable, actualizado, confiable)
- Modelos para Apple Silicon (busca etiqueta
mxfp8) - Modelfiles personalizados para ajustar defaults
Receta paso a paso:
# Instala Ollama
brew install ollama
# Mantén el modelo cargado, acepta conexiones de red
OLLAMA_HOST=0.0.0.0 OLLAMA_KEEP_ALIVE=24h ollama serve
Baja el modelo correcto:
ollama pull qwen3.6:35b-a3b-mxfp8
Ese mxfp8 no es adorno. Separa lo inútil de lo práctico.
Crea un Modelfile para pulirlo:
FROM qwen3.6:35b-a3b-mxfp8
PARAMETER num_ctx 16384
PARAMETER presence_penalty 0
PARAMETER temperature 0.7
Construye y ejecuta:
ollama create my-coder -f Modelfile
ollama run my-coder
Integra con tu IDE
Con el server en marcha, conecta al IDE. Endpoints compatibles con OpenAI te dejan usar http://localhost:11434 en cualquier cliente estándar, como si fuera ChatGPT.
Extensiones para VS Code, Vim, Neovim o JetBrains lo pillan al vuelo. Tu LLM local parece uno de nube.
Los costos reales
Piensa bien antes de empezar:
- Tiempo de setup: No es instalar y listo. Vas a debuggear modelos equivocados.
- Ruido: Ventiladores a tope. La GPU suda.
- Variedad limitada: No cambias entre GPT-4, Claude y Gemini en segundos. Te atas a uno.
A cambio:
- Privacidad: Código queda en tu máquina.
- Cero gasto: Sin cargo mensual.
- Latencia fija: Olvida variaciones de red.
- Libertad total: Cambia prompts, parámetros, sin filtros.
¿Qué sigue?
Esto es solo el arranque de tu infra AI local. Prueba:
- Otros modelos (Llama 3, Mistral, open-source)
- Versiones fine-tuneadas con tu código
- Especializados por lenguaje o framework
- Hooks en tu pipeline de build
La era local ya llegó. Tu MacBook Pro da la talla. Modelos buenos. Herramientas listas.
No esperes la perfección. Monta ya.