Saját helyi AI kódoló asszisztens MacBook Pro-n: lépésről lépésre
Saját helyi AI kódoló asszisztens MacBook Pro-n: Teljes körű útmutató
Sokan álmodoznak arról, hogy nagy nyelvi modelleket futtassanak a saját gépükön. Gyorsabb válaszok, teljes adatbiztonság, nulla API-költség – ígéretesen hangzik. A gyakorlatban viszont sok fejlesztő elakad. Nézzük meg, mi kell egy megbízható helyi kódoló AI-hoz, hol szoktak gondok lenni, és hogyan oldjuk meg őket.
Miért helyi megoldás?
A felhőalapú AI-kódolók kényelmesek, de kompromisszumokkal járnak. A kódod az interneten utazik, rate limit-et kapsz, tokenenként fizetsz, plusz késleltetés minden lekérdezésnél.
Ha érzékeny projekten dolgozol, biztonsági fanatikus vagy, vagy eleged van az előfizetési díjakból, a helyi setup mindent megváltoztat. A MacBook Pro-d lesz a saját AI-servized – külső függőség nélkül, adatleakadás nélkül, meglepetés számla nélkül.
Csak erős hardver kell hozzá. És tudni kell, mely modellek, eszközök működnek jól.
Hardverkövetelmények
Nem minden MacBook bírja. Ilyen gépre van szükség:
- Apple Silicon (M-sorozatú chip)
- Minimum 32 GB unified memory (48 GB ideálisabb)
- Kicsit türelem a teszteléshez
Az Apple unified memory-je kulcsfontosságú. A CPU és GPU ugyanazt a memóriát osztja – nincs adatmásolás közöttük. LLM-inferenciánál ez óriási előny.
Melyik modellt válaszd?
Itt bukik el a legtöbb próbálkozás. Nem minden modell alkalmas helyi futtatásra.
48 GB-os MacBookhoz olyan modellt keresel, ami:
- Okos igazi kódolási feladatokra
- Apple Silicon-ra optimalizált (ne sima GGUF-et húzz)
- Hosszú beszélgetéseket bír (az infrastruktúra ugyanolyan fontos, mint a modell)
2024/2025-ben a Qwen újabb változatai vagy 27B-35B paraméteres társai a nyerők. Nézd a SWE-bench Verified benchmarkeket – ez méri a valós hibajavítást, nem csak sima kérdéseket.
MoE modellek is jók. 35B paraméternek tűnnek, de tokenenként csak töredéket aktiválnak, így kevesebb memóriát esznek, mégis minőségiek.
A szoftveres buktatók: Miért omlik össze az első próbálkozás?
Tapasztalatokból jön ez a rész.
Az mlx-lm server hibája
Az Apple MLX keretrendszere verhetetlen Apple Silicon-on – 20-30%-kal gyorsabb, mint a llama.cpp. Tehát kipróbálod az mlx-lm.server-t.
Betöltődik, pár válasz jön, aztán middle-conversation crash Metal memory error-rel. A KV cache (a figyelem-memória, ami a beszélgetés hosszal nő) korlátlanul dagad a serverben. Lefoglalja a GPU-t, a rendszer kill-elni kényszerül.
A --max-kv-size vagy --prompt-cache-size flagek? Csak az egyszeri generáló toolban vannak, a serverben nem.
Tanulság: mlx-lm super egyszeri tesztekre. Szervernek ne használd.
Az Ollama fordulat
Ollama fix context window-vel oldja meg. A KV cache bounded marad. Nincs crash, stabil.
De csapda: Alapértelmezetten generic GGUF modelleket húz, nem Apple-optimalizáltakat. Működik a server, de a kimenet gyenge – gyenge logika, maszatos kód, furcsa ismétlések. Mert a quantizáció kompatibilitásra megy, nem hatékonyságra.
Ráadásul default penalty-k: Sok modellnél presence_penalty 1.5 – ez erősen tiltja a ismétléseket, még a kódváltozókét is, amiknek kellene.
Mi működik tényleg
Szükséged van:
- Ollama runtime-ra (stabil, karbantartott, bevált)
- Apple Silicon-optimalizált modellekre (
mxfp8quantizációval) - Custom Modelfile-re a defaultok felülírására
Íme a recept:
# Ollama telepítése
brew install ollama
# Modell betöltve tartása, hálózati hozzáférés
OLLAMA_HOST=0.0.0.0 OLLAMA_KEEP_ALIVE=24h ollama serve
Húzd le a jó modellt:
ollama pull qwen3.6:35b-a3b-mxfp8
A mxfp8 nem dísz – ez választja el a "mi ez a hülyeség?"-t a "hasznos"-tól.
Modelfile a finomhangoláshoz:
FROM qwen3.6:35b-a3b-mxfp8
PARAMETER num_ctx 16384
PARAMETER presence_penalty 0
PARAMETER temperature 0.7
Építsd és indítsd:
ollama create my-coder -f Modelfile
ollama run my-coder
IDE-kapcsolat
Ha fut a helyi server, csatlakoztasd az IDE-hez. OpenAI-kompatibilis endpoint miatt bármilyen kliens rámutathat http://localhost:11434-re – olyan, mintha ChatGPT lenne.
VS Code, Vim, Neovim, JetBrains extension-ök mind támogatják. Az IDE nem látja a különbséget cloud és local között.
Igazi költségek
Tudd, mire cserélsz:
- Beállítási idő: Nem plug-and-play. Debugolni kell, rossz modelleket próbálsz.
- Zaj: A ventilátorok pörögnek. A GPU keményen dolgozik.
- Modellválaszték: Nem váltogatsz GPT-4 és Claude között. Egy modellre elköteleződsz.
De kapsz:
- Biztonság: Kódod nem hagyja el a gépet
- Költségbiztosság: 0 Ft/hó inferenciára
- Kiszámítható késleltetés: Nincs hálózati ingadozás
- Szabad kísérletezés: Promptok, paraméterek módosítása, guardrail nélkül
Mi jön még?
Ez csak a kezdet. Innen:
- Kísérletezz más modellekkel (Llama 3, Mistral, open-source opciók)
- Fine-tune-old a saját kódodra
- Nyelv- vagy framework-specifikus modellek
- Építsd be a build pipeline-ba
A helyi AI-korszak itt van. MacBook Pro-d elég erős. Modellek elég jók. Eszközök érettek.
Ne várd a tökéletest. Rakd össze most.