Yerel LLM'leri Gerçek Kodlama Testlerinden Geçirmek: Pratik Bir Rehber

May 03, 2026 local-llms ai-benchmarking coding-agents llm-quantization developer-tools machine-learning software-engineering llama-cpp vibe-hosting

LLM'ler Kod Yazarken Gerçekten Ne Kadar İyi?

Yapay zeka geliştirme dünyasında takip ediyorsanız, muhtemelen şunu fark etmişsinizdir: herkes kendi modelinin "en iyisi" olduğunu iddia ediyor, ama hiç kimse nasıl ölçüleceği konusunda hemfikir değil. Kıyaslama testleri dağınık durumdadır, her biri farklı kriterler kullanır ve zamanla eğitim verilerine dahil olurlar. Bu da onları gittikçe daha az kullanışlı hale getirir.

İşte bu yüzden gerçekten işe yarar ve tekrarlanabilir testler yapan geliştiriciler umut vericidir. Günlük hayatta kod yazıp, hataları düzeltip, özellik deploy ettiğimiz işleri gerçekten ölçüyorlar.

Aslında Ne Test Ediyoruz?

17 farklı quantized dil modelini, 5 değişik coding agent framework'üyle (Aider, Claude Code, OpenCode, Pi, Qwen CLI) birleştirip, Python, PyTorch, JAX, C++, Rust ve SQL'i kapsayan 16 gerçek yazılım mühendisliği görevine karşı test edin. Sonuç: 1.360 ayrı deneme—hepsi izole ortamda, hepsi ajanın görmediği gizli test setleriyle değerlendirilir.

Bu yaklaşımın en güzel tarafı? Gerçek dünyayı yansıtması. Ajanlar izole çalışma alanlarında çalışır. Değerlendirme kriterlerine bakamaz. Görevler "herkes bunu başarır" seviyesinden (recursive SQL sorgularıyla) "sadece en iyi modeller yapabilir" seviyesine kadar uzanır (karmaşık PyTorch optimizasyonları, rope embeddings, grouped query attention).

Bu, akademik testlerden çok farklıdır. Akademide eğitim ve test verileri sürekli birbirlerine yaklaşır.

Herkesin Bilmek İstediği Sonuçlar

Başlık şu: Qwen 3.6-27B Pi harnessiyle birlikte mükemmel 16/16 başardı. Her görev ortalama 207 saniyede tamamlandı. Bu kombinasyon test matrisinde her şeyi geçen tek çözüm.

Ama ilginç kısım buradan başlıyor—çünkü mükemmellik her zaman pratik değildir.

Hız önemliyse, MXFP4 quantization'da gpt-oss-120b ile Pi, 15/16'yı sadece 34 saniyede kapıyor. Bu mükemmel modelden 6 kat daha hızlı—tek bir görev başarısızlığının karşılığında. Gerçek geliştirme işinde bu genellikle daha iyi bir uzlaşmadır.

Orta büyüklükteki modelleri tercih edenler için Qwen 3.6-35B-A3B versiyonu Qwen harnessiyle 108 saniyede 15/16 başarısını korur. Çoğu ekip için bu ideal noktadır: güçlü performans, düşük kaynak tüketimi.

Teknik Stack'iniz İçin Neden Önemli

Yapay zeka destekli geliştirme araçları seçerken—yerel coding ajanları, otomatik kod review'ler, test üretimi—bu rakamlar doğrudan maliyet ve geliştirici verimliliğine çevrilir:

Gecikme hızlı birikmektedir. Modelin bir görev için 3 dakika alması ve geliştiriciler günde 20 kez çalıştırması, saatlik üretkenlik kaybına dönüşür. Her saniye önemlidir.
Mükemmellik her zaman gerekli değildir. %94 başarısı 6 kat daha hızlı olan çözüm, %100 başarı ama yavaş olan çözümden daha iyi geliştirici deneyimi sağlayabilir.
Harness model kadar önemlidir. Sadece modelini değiştiremezsin. Ajanla LLM'i birbirine bağlayan framework, ne kadar iyi çalıştıklarını belirler.

Detaylar: Bu Test Neden Güvenilir

Çoğu benchmark başarısız olur çünkü eğitim verilerine katılırlar. Böylece gerçek test yerine saf ezberlenmiş bilgi ölçülür. Bu test bu yüzden kasıtlı olarak özel tutulur. Görev istemleri ve değerlendirme kriterleri gizli kalır. Gelecekteki model eğitimleri yanlışlıkla testleri "bozamazlar".

Yayınlanan şey nedir? Sonuçlar, bireysel puanlar ve grafik kodları. Karar almak için yeterli şeffaflık, sistemi oynatmak için yetersiz bilgi.

Zorluk çeşitliliği de önemlidir. pt3_rope_gqa ve jax1_complex_lp gibi görevler modelller arasında gerçekten ayrım yapar. Herkesin geçtiği kolay görevler size hiçbir şey söylemez. En zor 6 görev, birinci sınıf kombinasyonları diğerlerinden ayırır.

NameOcean'da Uygulama

NameOcean'ın Vibe Hosting hizmetini yapay zeka araçlarıyla kullanıyorsanız, bu testleri anlamak kararlarınızı iyileştirir:

Altyapınızda self-host etmek istediğiniz local modeller hangileri
Local işlem ve bulut LLM API'leri arasındaki sınır nerede
Ne kadar donanım gerçekten üretken kalmak için lazım

Tüm 1.360 test tek bir M3 Max üzerinde (128GB RAM) çalıştırıldı. Bu önemlidir—modern donanımdaki geliştiriciler kurumsal altyapı olmadan ciddi local LLM denemeleri yapabilir.

Dürüst Söylemek

Yazar bunları "ön bulguları" olarak adlandırıyor—ve işte bu tür düşünce alışkanlığına daha çok ihtiyacımız var. Bazı sıralamalar dikkatli tekrar denemelerle değişebilir. Q4 ve Q8 quantization testleri arasında pattern tutarlı kaldı ki bu iyi bir işaret, ama bu son söz değil.

Burada olan şey, ne gerçekten işe yaradığının pratik ve tarafsız incelemesidir. Pazarlama sloganı yok. Abartılı iddialar yok. Sadece görevler, modeller, frameworkler ve dürüst test süreci.

Kod LLM'leri dünyası o kadar hızlı değişiyor ki 6 ay önceki testler antika görünür. Bu tür titiz, tekrarlanabilir test—özellikle açık sonuçlar ve gizli görevlerle—alanın olgunlaşırken ihtiyaç duyduğu çerçeve olabilir.

Eğer yapay zeka destekli geliştirme araçları dağıtıyor veya kendi stack'iniz için modeller değerlendiriyorsanız, bu tür düşünmeyi taklit etmelisiniz. İzole ortamlar kurun. Test kriterlerinizi gizleyin. Gerçek iş akışlarında önem taşıyan metrikleri ölçün.

Kod yazma konusunda kazanan modeller, en çok parametreye sahip olanlar ya da en çarpıcı gösterideki değildir. Bazen sadece geliştiricilerin kod yazmasına engel olmayan, onları serbest bırakan modellerdir.

Read in other languages:

RU BG EL CS UZ SV FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN