Kendi AI Kod Yardımcını Yaratmak: MacBook Pro'da Adım Adım

Kendi AI Kod Yardımcını Yaratmak: MacBook Pro'da Adım Adım

May 06, 2026 ai coding assistant macbook m-series local llm ollama apple silicon optimization private ai infrastructure developer tools

MacBook Pro'nuzda Kendi AI Kod Asistanınızı Çalıştırmak: Detaylı Bir Rehber

Bilgisayarınızda büyük dil modellerini çalıştırmanın hayali var mı? Yalnız değilsiniz. Cazibesi açık: daha hızlı sonuçlar, tam gizlilik, API faturaları yok. Ancak pratikte çoğu geliştirici bu aşamada takılıp kalıyor. Gelin birlikte, yerel bir AI kod asistanının nasıl çalıştığını, neler ters gidebileceğini ve bunları nasıl düzeltebileceğinizi konuşalım.

Neden Yerel Çalıştırsın?

Bulut tabanlı kod asistanları kullanışlı, evet. Ama her şeyin bir bedeli var. Kodunuz internette gidip geliyor. Oran sınırlarına toslanıyorsun. Her token için ödeme yapıyorsun. En basit otomatik tamamlama bile gecikmeye sebep oluyor.

Hassas projelerde çalışan, güvenliği ön planda tutan veya sürekli artan abonelik ücretlerinden sıkılan geliştirici için yerel kurulum oyunun kuralını değiştirir. MacBook Pro'nuz kendi AI altyapınız olur—dışarıdan bağımlılık yok, veri sızıntısı riski yok, aylık sürpriz faturalar yok.

Tabii bunun bir şartı var: Yeterli donanıma ihtiyacın var. Ve hangi modellerin ve araçların gerçekten ölçekte çalıştığını bilmen gerekir.

Donanım Yeterli mi?

Herbir MacBook bunu kaldıramaz. İhtiyacın olan:

  • Apple Silicon (M serisinden çip)
  • En az 32 GB birleştirilmiş bellek (48 GB daha rahat)
  • Deneme yanılma için sabır

Apple Silicon'daki birleştirilmiş bellek mimarisi sırrınız. Ayrı GPU'ların aksine, burada CPU ve GPU aynı bellek havuzunu paylaşıyor—veri ileri geri kopyalanmıyor. LLM çıkarımı için bu muazzam bir avantaj.

Model Seçimi: En Sık Hata Yapılan Yer

Çoğu insan tam burada şaşırıyor. Tüm modeller eşit değil ve hepsi yerel kullanım için tasarlanmamış.

48 GB belleğe sahip bir MacBook'ta aradığın model:

  • Yeterince akıllı olmalı ki gerçek kodlama görevlerini hallettsin
  • Apple Silicon için optimize edilmiş olmalı (rastgele GGUF uyarlamalarını boş ver)
  • Uzun konuşmalarda test edilmiş olmalı (altyapı model kadar önemli)

2024-2025'te ideal nokta, Qwen'in yeni sürümleri ya da benzer 27B-35B parametre aralığındaki mimarilerdir. SWE-bench Verified gibi benchmarklara bak—bu haliyle sorulara değil, gerçek hata düzeltme yeteneğini ölçüyor.

Mixture of Experts (MoE) modelleri de dikkate değer. 35B parametreye sahip olup, her token'da sadece bir kısmını aktif hale getirerek bellek basıncını azaltırken kaliteyi koruyorlar.

Yazılım Tuzakları: İlk Denemeleriniz Neden Çöküyor?

Bu bölüm acı tecrübelerden yazılmış.

mlx-lm Server Sorunu

Apple'ın MLX çerçevesi Apple Silicon üzerinde llama.cpp'den yüzde 20-30 daha hızlı—tartışılmaz. Tabii ki ilk olarak mlx-lm.server'ı deneyeceksin. Bariz seçim bu.

Ama sonra ne oluyor: sunucu açılıyor, birkaç yanıt alıyorsun. Sonra konuşmanın ortasında Metal bellek hatası ile çöküyor. KV önbelleği (konuşma uzadıkça büyüyen dikkat belleği) server uygulamasında hiç sınırlandırılmamış. GPU belleğini kilitler ve sistem OOM-kill yapana kadar tutanaklar.

Çılgınca arayacağın bayraklar—--max-kv-size, --prompt-cache-size—sunucu bileşeninde hiç yok. Sadece tek çıkarım aracında mevcut.

Sonuç: mlx-lm tek seferlik çıkarım için iyi. Çalışmasını istediğin bir sunucu için değil.

Ollama Çözümü

Ollama bunu sabit bir bağlam penceresiyle çözer. KV önbelleği sınırlı kalır. Çöküntü yok. İstikrar var.

Fakat burada başka bir tuzak: Ollama varsayılan olarak jenerik GGUF versiyonlarını çekilir, Apple Silicon optimizasyonlarını değil. Çalışan bir sunucun olur, ama çıktı kalitesi seni hayal kırıklığına uğratır. Zayıf akıl yürütme, kusurlu kod üretimi, bazen garip token tekrarları göreceksin—hepsi çünkü temel model Apple Silicon verimliliğine değil uyumluluk için tasarlanmış agresif sıkıştırmaya karşı mücadele ediyor.

Bir tuzak daha var: varsayılan ceza parametreleri. Bazı modeller presence_penalty 1.5 ile önceden yapılandırılmış—ufak bir detay gibi görünür ta ki anladığın zaman token tekrarını, kodda tekrarlanması gereken değişken adlarını ve anahtar kelimeleri agresifçe caydırıyor olduğunu fark edersin.

Gerçekten İşe Yarayan Yol

Lazım olanlar:

  1. Ollama'yı çalışma ortamı olarak (kararlı, bakımı yapılıyor, çalışıyor)
  2. Apple Silicon için optimize edilmiş modeller (mxfp8 niceleme etiketlerine bakın)
  3. Agresif varsayılanları geçersiz kılacak özel Modelfile'lar

İşte reçete:

# Ollama'yı kur
brew install ollama

# Modeli yüklü tut, ağ bağlantılarını kabul et
OLLAMA_HOST=0.0.0.0 OLLAMA_KEEP_ALIVE=24h ollama serve

Doğru modeli çek:

ollama pull qwen3.6:35b-a3b-mxfp8

O mxfp8 eki sadece gösterişlik değil—"niye bu kadar aptalca davranıyor?" ile "bu gerçekten kullanışlı" arasındaki fark bu.

Davranışı ince ayar yapmak için bir Modelfile oluştur:

FROM qwen3.6:35b-a3b-mxfp8
PARAMETER num_ctx 16384
PARAMETER presence_penalty 0
PARAMETER temperature 0.7

Sonra oluştur ve çalıştır:

ollama create my-coder -f Modelfile
ollama run my-coder

IDE'ne Bağlama

Yerel sunucun çalışmaya başladığında IDE entegrasyonunu istersin. OpenAI uyumlu uç noktalar, http://localhost:11434 adresine işaret eden herhangi bir istemciyi ChatGPT için tasarlanan araçlarla çalışmaya hazır hale getirir.

VS Code, Vim, Neovim, JetBrains IDE'leri için uzantılar—hepsi OpenAI protokolünü destekliyor. Yerel LLM'in Cloud hizmetten farkı IDE açısından sıfır.

Gerçek Maliyetler

Başlamadan önce neyle karşı karşı olduğunu bil:

  • Kurulum zamanı: Bam diye açıp oynamak değil bu. Debug edeceksin. Yanlış modeller deneyeceksin.
  • Gürültü: Fanların çalışacak. O GPU emek yapıyor.
  • Model çeşitliliği: GPT-4, Claude ve Gemini arasında anında geçiş yapamayacaksın. Bulunduğun modele mahkum olacaksın.

Ama kazanıyorsun:

  • Gizlilik: Kodun makinen dışında hiçbir yere gitmez (siz göndermezseniz)
  • Kesin maliyet: Aylık sıfır lira
  • Tahmin edilebilir hız: Ağ değişkenliği yok
  • Deney özgürlüğü: İstemleri değiştir, parametreleri ayarla, sınırlama yok

Sırada Ne Var?

Bu yerel AI altyapısının başlangıcı. Buradan:

  • Farklı modelleri dene (Llama 3, Mistral, açık kaynak alternatifler)
  • Kodlama stiline göre eğitilmiş kendi versiyonlarını oluştur
  • Belirli diller veya çerçeveler için özel modeller çalıştır
  • Yapı hattına entegre et

Yerel AI çağı başladı. MacBook Pro'nuz yeterince güçlü. Modeller yeterince iyi. Araçlar yeterince olgun.

Mükemmelliği bekleme. Şimdi başla.

Read in other languages:

RU BG EL CS UZ SV FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN