Szabadulj meg a használat-alapú díjazástól: Futtasd saját gépeden az AI kódsegítőket
A kényelem ára
Régen luxusnak számítottak a kódoló AI-k. Ma már elengedhetetlenek a komoly fejlesztésekhez. Csakhogy a díjazásuk gyökeresen megváltozott. A nagy AI-cégek hátat fordítanak az olcsó előfizetéseknek, helyette használatalapú számlázást nyomnak. Minden API-hívás pénzt visz el – legyen szó hobbi projektről vagy éles termékről.
Anthropic összecsomagolja a Claude Code-ot. GitHub Copilot csak fizess-használj alapon megy. OpenAI meg folyton igazgatja az árait. Ha nem figyelsz, a havi AI-számlád simán meghaladja a hosting költségeidet.
De van jó hír: nem kell ebbe belemenni.
Miért pont most érdemes váltani?
A helyi AI-modellek nem újkeletűek. Korábban is írtunk róluk. Ám pár hónap alatt mindent átalakított a piac. Ami régen barkácsolás volt, ma már komoly versenytárs.
Mi változott meg?
A friss modellek képesek "gondolkodni" a feladaton, így a kisebbek is jól teljesítenek hosszabb töprengéssel. A mixture-of-experts felépítés miatt nem kell óriási VRAM egy használható sebességhez. Fontos lépés a tool-calling érettsége: a modellek most már kezeli a kódbázist, futtat shell parancsokat, és külső erőforrásokhoz fér hozzá.
Például az Alibaba Qwen3.6-27B modellje kódolásra optimalizált, és elfut egy 32 GB-os M-sorozatos Macen vagy egy 24 GB-os GPU-n. Teljesen képzett. Ár? Nulla. Korlátok? Nincsenek.
Mire van igazán szükséged
Ne ess túlzásba a lelkesedéssel. Ez nem 2015-ös MacBook Air-en pörög.
Minimális, reális setup:
- Nvidia, AMD vagy Intel GPU legalább 24 GB VRAM-mel (vagy ekvivalens), VAGY
- Újabb Mac 32 GB+ unified memory-vel (M3 Max vagy M4 Max a legjobb; régebbiek küszködnek)
- Inference engine, mint Llama.cpp, Ollama vagy LM Studio
- Kb. 30 perc beállítás
Pozitívum: ha a GPU-d gyengébb, kiegészítheted rendszer-RAM-mel, és quantizációval (lentebb bővebben) többet hozhatsz ki belőle.
Hogyan indítsd el jól a modelledet
Egyszerűen leszedni és elindítani nem elég. A kódgenerálás érzékeny. Rossz paramétereknél szép kód jön, ami fordít, de semmire sem jó.
A Qwen3.6-27B ezekkel a hiperparaméterekkel hozza a legjobbat:
temperature: 0.6
top_p: 0.95
top_k: 20
min_p: 0.0
presence_penalty: 0.0
repetition_penalty: 1.0
De ennél többről van szó. A context window – amit a modell lát a beszélgetésből és kódból – kulcsfontosságú. Nagy projekteknél gyorsan megtelik. A Qwen bírja a 262 144 tokent, de 16-bites pontosságban felemészti a VRAM-ot.
Trükk: nyomd 8-bitre a key-value cache-t. Quality-ből alig vesztesz, de a context window robban. Adj hozzá prefix cachinget (újrahasználja a változatlan részeket), és responszív, erős modellt kapsz.
A nagy váltás
Más érzés helyi AI coding agentet futtatni. Nincs rate limit számláló. Nem számolgatod, hogy ez a refactorolás megéri-e 800 forintot. Csak kódolsz egy AI csapattárssal, korlátozva csak a gépeddel.
Ez nem csak költségkérdés. Megváltoztatja a használatot. Többet kísérletezel. Őrültebb kérdéseket teszel fel. Másképp dolgozol vele.
Lassabb, mint a Claude 3.5 Sonnet vagy GPT-4o? Néha igen. De kódírásra, refactorra, dokumentációra, debugra a Qwen3.6-27B teljesen alkalmas. Ráadásul a saját vasadon fut.
Mi jön még?
Következő lépés az environment beállítása, IDE integráció és agent keretrendszerek. Az alap azonban kész: a modellek jók, a toolok érettek, a költségszámítás meg már más.
Ha részletes guide-ot akarsz – inference engine telepítés, quantizáció, IDE összekötés –, szólj. A piac mozdul. Légy te is résen.