Zelf een lokale AI-codingassistent bouwen op je MacBook Pro: complete gids
Lokale AI-codehulp op je MacBook Pro: Zo pak je het aan
Steeds meer developers willen grote taalmodellen draaien op hun eigen machine. Snellere reacties, totale privacy en geen API-kosten. Klinkt ideaal, maar in de praktijk loop je vaak vast. Laten we kijken wat je nodig hebt, waar het misgaat en hoe je het oplost.
Waarom lokaal?
Cloud-tools zoals Copilot zijn handig, maar hebben nadelen. Je code gaat over het internet, je botst op limieten, en je betaalt per token. Elke suggestie kost tijd door latency.
Voor gevoelige projecten of teams die privacy prioriteren, is lokaal een gamechanger. Je MacBook Pro wordt je eigen AI-server. Geen afhankelijkheden, geen datalekken, geen abonnementskosten.
Alleen: je hardware moet krachtig genoeg zijn. En je moet de juiste modellen en tools kiezen.
Hardware die telt
Niet elke MacBook haalt het. Ga voor:
- Apple Silicon (M-serie chips)
- Minstens 32 GB unified memory (48 GB loopt soepeler)
- Geduld voor wat uitproberen
De unified memory op Apple Silicon is goud waard. CPU en GPU delen één geheugenpool, zonder data te kopiëren. Perfect voor LLM-inference.
Welk model?
Hier struikelen veel mensen. Niet elk model is geschikt voor lokaal gebruik.
Op een 48 GB MacBook zoek je:
- Slim genoeg voor echte codeklussen
- Geoptimaliseerd voor Apple Silicon (geen standaard GGUF)
- Getest op lange chats (contextbeheer is cruciaal)
In 2024/2025 zijn Qwen-varianten of 27B-35B modellen top. Check benchmarks als SWE-bench voor bugfix-skills.
MoE-modellen (Mixture of Experts) zijn slim: veel parameters, maar alleen een deel actief. Minder geheugendruk, zelfde kwaliteit.
Valkuilen in de tools
Je eerste poging crasht waarschijnlijk. Dit zijn de lessen.
MLX-lm server faalt
MLX van Apple is supersnel op Silicon – 20-30% beter dan llama.cpp. Dus je start mlx-lm.server.
Het laadt, geeft antwoorden, en dan: Metal memory crash midden in een chat. De KV-cache groeit onbeperkt en vult je GPU. Geen flags om dat te fixen in de server-versie.
Conclusie: MLX voor eenmalige tests, niet voor een stabiele server.
Ollama als redder
Ollama houdt de contextwindow vast. Geen crashes, puur stabiliteit.
Maar valkuil: standaard GGUF-modellen zijn niet geoptimaliseerd. Resultaat: matige code, herhalingen, zwakke logica door te agressieve quantisatie.
Extra issue: default presence_penalty (vaak 1.5) blokkeert herhaling van code-elementen zoals variabelen.
Wat écht werkt
De winnende combo:
- Ollama als basis (stabiel en up-to-date)
- Apple Silicon-modellen met
mxfp8-quantisatie - Eigen Modelfile voor finetuning
Stap voor stap:
# Ollama installeren
brew install ollama
# Server starten, netwerk open, model 24u geladen
OLLAMA_HOST=0.0.0.0 OLLAMA_KEEP_ALIVE=24h ollama serve
Model ophalen:
ollama pull qwen3.6:35b-a3b-mxfp8
Modelfile maken:
FROM qwen3.6:35b-a3b-mxfp8
PARAMETER num_ctx 16384
PARAMETER presence_penalty 0
PARAMETER temperature 0.7
Bouwen en runnen:
ollama create my-coder -f Modelfile
ollama run my-coder
Die mxfp8 maakt het verschil: van 'meh' naar 'handig'.
IDE-koppeling
Server draait? Sluit aan op je IDE. OpenAI-endpoints werken op http://localhost:11434. VS Code, Vim, Neovim, JetBrains – allemaal compatible.
Je lokale AI voelt als een cloud-service.
De prijs die je betaalt
Wees eerlijk:
- Setup-tijd: Debuggen en verkeerde modellen proberen.
- Geluid: Fans draaien door, GPU op volle toeren.
- Beperkt aanbod: Geen snelle switch tussen modellen.
Maar je wint:
- Privacy: Code blijft lokaal.
- Gratis: Geen inference-kosten.
- Snelle latency: Geen netwerkhikken.
- Vrijheid: Prompts en params aanpassen, geen restricties.
Volgende stappen
Dit is je startpunt voor lokale AI. Probeer:
- Andere modellen (Llama 3, Mistral)
- Fine-tunen op je eigen code
- Speciale modellen per taal/framework
- Integratie in je pipeline
Lokale AI is nu rijp. Je MacBook Pro kan het. Modellen zijn sterk. Tools zijn klaar.
Gewoon beginnen.