AI Asistanınıza Kod Verin, Ekran Görüntüsü Değil

Haz 30, 2026 ai coding assistants developer productivity claude code vibe coding structured data token optimization

Piksel Problemi

Sana bir sahne çizeyim. Saat gece 2. Aynı CSS layout sorunu üzerinde bir saattir debeleniyorsun. Sonunda pes ettin, ekran görüntüsü aldın, terminale yapıştırdın ve yazdın: "bu kaymış butonu düzelt."

Yapay zeka asistanın piksellere bakıp en iyi yorumu yapmaya çalıştı ve—umarız—işe yarar bir şeyler verdi. Ama o kara kutu içinde aslında ne oldu: model sadece ekranını görmek için token yaktı, sonra gördüğünü yorumlamak için daha çok token yaktı, sonra 1440p ekranındaki 47 UI elementinden hangisini kastettiğini tahmin etmeye çalıştı.

Gece 2'de yapılan bir debugging seansı için fazla tahmin işi.

Kimsenin Konuşmadığı Token Matematiği

İşte AI kodlama asistanı satıcılarının pek ön plana çıkarmadığı bir şey: yapıştırdığın her ekran görüntüsü gerçek paraya mal oluyor ve context window'undan yer yiyor. Bir Retina ekran görüntüsü Claude'da vision işleme için yaklaşık 1.500+ token. GPT-4o'da bu rakam 1.100 civarında. Gemini 2.5? Yaklaşık 1.550.

Şimdi bunu iteratif bir seansla çarp. Her birkaç promptta ajana ekran durumunu gösteriyorsun—ki karmaşık UI sorunlarını debug ediyorsan, bu muhtemelen 15-20 kez.

Aniden ajan hiçbir faydalı iş yapmadan sadece vision için 22.000 ila 31.000 token harcadı. 200k context window'unda, bu geri almayacağın bir emlak. Opus 4.7 veya 4.8 kullanıyorsanız? Aynı seans boyunca yaklaşık 96.000 vision tokenine hazır olun.

Alternatif? UI elementlerini, pozisyonlarını, renklerini, metin içeriklerini ve semantik rollerini tanımlayan yapılandırılmış JSON. Aynı ekran durumu JSON olarak? Yaklaşık 700 token. 20 dönüşlük bir seans boyunca: toplam yaklaşık 14.000 token.

Bu dramatik bir iyileşme. Refactor'ını tamamlamak ile seans ortasında context compaction'a uğramak arasındaki fark bu.

Pikseller Değil, Yapı: Asıl Kazanım

Ama token hesabının ötesinde asıl önemli olan bir şey var—ve buna sürekli geri dönüp bakıyorum.

Ekran görüntüsü yapıştırdığında, ajan her seferinde her şeyi yeniden yorumlamak zorunda. Ham pikseller kalıcı bir muhakeme durumu değil. Altı prompt sonra bir takip sorusu sor, model piksellere tekrar bakıp yeniden yorumlamaya, yeniden tahmin etmeye başlar.

Yapılandırılmış JSON tüm dinamikleri değiştirir. "Pikseller belki bunu temsil ediyor" yerine, ajana başvurabileceği ve üzerine inşa edebileceği gerçekler verirsin: "e4 elementi [0.34, 0.60, 0.32, 0.07] pozisyonunda, #3B82F6 renkli, 'Kayıt Ol' etiketli bir butondur."

Ajan hangi input'u kastettiğini tahmin etmek zorunda değil. Schema zaten biliyor. Muhakeme, bir sonraki dönüşte de kullanılacak aynı temel yapılara dayanıyor. Göstermiyorsun; anlatıyorsun.

Vibe Coding İçin Neden Önemli

İşte bunun AI destekli geliştirmedeki daha geniş kaymayla—bazılarının "vibe coding" dediği şeyle—nasıl bağlantılı olduğu.

Vibe coding'in ana fikri, istediğin şeyi tarif edebilmen, hızlı iterasyon yapabilmen ve AI'ın implementasyon detaylarını halletmesine güvenebilmen. Ama vibe coding sadece AI'ın üzerinde çalıştığı şey hakkında doğru bilgiye sahip olduğunda işe yarıyor.

Bir ekran görüntüsü kayıplıdır. PNG'deki bir notasyon sadece dikdörtgen üzerinde kırmızı pikseller. Ama yapılandırılmış JSON'daki bir notasyon niyet taşır: hangi elementi hedeflediği, neyi vurgulamaya çalıştığı, ajandan ne yapmasını istediğin.

Tahmin işini ortadan kaldırdığında, sürtünmeyi de ortadan kaldırıyorsun. Ve vibe coding aslında sürtünmeyi ortadan kaldırmakla ilgili.

Pratik Çıkarım

Bak, ekran görüntüsü yapıştırmayın demiyorum. Bazen hızlıca bir şey göstermen gerekiyor. Ama AI kodlama asistanıyla ciddi iteratif iş yapıyorsan—refactoring, debugging, karmaşık UI'lı özellikler inşa ediyorsan—yapılandırılmış veri yolu.

Bunu anlayan araçlar daha akıllı hale geliyor. Anlamayanlar geride kalmak üzere. Çünkü sonuçta, bir görüntü yapıştırdığında yapay zeka asistanın gerçekten "görmüyor." Yorumluyor. Ve yorumlama pahalı, kayıplı ve tutarsız.

Ona gerçekten okuyabileceği bir şey ver.

Ne düşünüyorsun? Uzun AI kodlama seanslarında context window baskısını fark ettin mi? Düşüncelerini aşağıya bırak—bunu gerçek zamanlı olarak inşa ediyoruz ve senin deneyimin önemli.

Read in other languages:

RU BG EL CS UZ SV FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN