Yapay Zeka Web'de Yolunu Kaybediyor: Gerçek Dünya Tarayıcılığında Neden Başarısız Oluyor

Nis 29, 2026 ai web-agents benchmarking machine-learning automation long-horizon-tasks frontier-models

Web Ajanları Gerçek Dünyayla Karşılaştığında Neler Oluyor?

Hatırladığınız gibi, AI'lar satranç ve Go oyunlarında insanları yenmişti. Her başarı bizi genel yapay zekaya bir adım daha yaklaştırıyordu. Ama bir uçak biletini rezerve ettirmek, beş farklı mağazada ürün karşılaştırmak ya da çok şehirli bir tatil planlamak için bir web ajanı kullandığınız zaman, işler garip hale geliyor. Ajan kaybolmuş kalıyor.

Sorun modellerin kendisinde değil. Sorun, onları yanlış ölçümlüyor olmamız.

Kimsenin Bahsetmediği Kıyaslama Sorunu

Şimdiye kadar web ajanları değerlendirirken kullanılan kriterler... dikkat edin, epey iyimser diyebilirim. Çoğu test, birkaç dakikada tamamlanabilecek basit görevlerdir: "Bu hesaba giriş yap." "Formu doldur." "Bu butona tıkla." Ön sıradaki modeller? Bunları zaten çoktan çözmüş durumda. Hatta bu görevler artık o kadar basit ki, kıyaslama sonuçları bize pek bir şey söylemiyor.

Gerçek hayattaki web taraması böyle işlemiyor. Bir AI ajantan gerçekten faydalı bir şey yapmasını istediğinizde, işler karmaşık ve çok adımlı oluyor:

Rakip siteler arasında ürün karşılaştırması (Amazon, Walmart, Best Buy ve özel satıcıları aynı anda kontrol etmek)
Karmaşık seyahat planlaması (farklı havayollarında uçuş, oteller, araç kiralama, aktiviteler için çeşitli platformları taramak)
Bilgi birleştirme (ürün yorumları, fiyatlar ve stok durumunu onlarca kaynaktan derlemek)

Bu görevler başka bir beceri gerektirir: saatlerce devam edebilen odaklanma, siteler arası akıl yürütme, ve bağlamın korunması. Kısa vadeli, tek site görevlerinin tam karşıtıdırler.

İşte bu noktada Odysseys ortaya çıktı.

Gerçekliği Yansıtan Bir Kıyaslama: Odysseys

Carnegie Mellon Üniversitesi araştırmacıları, gerçek kullanıcı verilerinden elde edilen 200 adet uzun vadeli web görevini içeren Odysseys'i geliştirdi. Burada laboratuvar ortamında sahte siteler yok. Gerçek siteler, gerçek zorluklar, gerçek başarısızlık senaryoları var.

Bulgular? Oldukça endişe verici. En güçlü modeller bile görevlerin yüzde 44,5'inde tam başarı elde edebildi. Başka bir deyişle, yaklaşık yüzde 55'i eksik kalıyor ya da tamamen başarısızlık sonucu veriyor.

Ama en ilginç kısım burası değil. Uzun vadeli görevlerde "başarı"yı tanımlamak bile zor.

Sadece Başarı/Başarısızlık Değerlendirmesi Artık Yeterli Değil

Bir ajantan üç günlük Japonya seyahati planlıyor olduğunu düşünün. Uçakları ayırtıyor, otel buluyor ve üç tane aktivite tespit ediyor. Ama talep ettiğiniz bir restoran önerisi unutmuş. Bu başarı mı, başarısızlık mı?

Geleneksel kıyaslama yöntemleri sizi birini seçmeye zorlar. Oysa aslında ajan problemi kısmen çözmüştür. Standart testler bu nüansı tamamen kaçırıyor.

Odysseys, rubrik tabanlı değerlendirme yöntemini tanıttı. Her görevi bağımsız olarak doğrulanabilecek küçük parçalara bölerek, kısmi ilerlemeyi de ölçüyor. "Başarı ya da Başarısızlık" yerine, görevler puanla değerlendiriliyor ve somut kriterler var. Bu sistem, AI'ya tüm süreci atıp "Ne düşünüyorsun?" diye soran yöntemlerden çok daha güvenilir çıktı.

Bu fark çok önemli.

Hiç Beklenmeyen Verimlilik Sorunu

Araştırmacılar dikkat çekici bir başka problem fark etti: sadece başarı oranına bakmak hikayenin yarısını anlatıyor. Ajanlar başarısız olsa bile, inanılmaz derecede verimsizler.

Bu yüzden Odysseys, Adım Etkinliği Metriği ekledi. Basitçe söylemek gerekirse: ajan her adımda ne kadar ilerlediğini ölçüyor. Bilgisayar kaynakları açısından "karşılık" anlamına gelir.

Sonuç şu: en güçlü ajanlar bile yüzde 1,15 adım etkinliğine ulaşabildiler.

Bunu açık söylemek gerekirse: ajanlar çok fazla dolambaçlı yollar gidiyor, dikkatini dağıtıyor, zaten kontrol ettikleri bilgileri tekrar kontrol ediyor, ve her adım sanki pahalıymış gibi davranıyor. Ticari kullanımda bu ciddi bir sorun. Bir ajan bir insanın 50 adımda bitireceğini 1000 adımda bitirirse, ekonomik olarak mantıklı değil. Özellikle her adım yeni bir sayfanın yüklenmesi, JavaScript'in çalışmasını beklemesi ya da karmaşık site yapılarında gezinmeyi gerektirebiliyor.

Veriler Gerçekte Ne Söylüyor?

Kıyaslama sekiz farklı modeli test etti. Araştırmacılar tam başarı oranını "adım bütçesi" (ajanın kaç tarayıcı hareketi yapması gerektiği) ile karşılaştırdığında, net bir şekil ortaya çıktı:

Tüm modeller aynı eğriyi izliyor. İlk 15 adımda performans sıfırda kalıyor. 20-70 adım arasında hızla yükseliyor. 80 adımdan sonra iyileşme yavaşlıyor, çünkü modeller pratik sınırlarına ulaştığından.

Büyük model şirketlerinin API'ları açık kaynaklı alternatiflere göre daha hızlı ve yüksek çıkıyor. Ama kritik nokta şu: hiçbiri tam başarıya yaklaşamıyor. İyileşme için çok yer var.

Bu Endüstri İçin Neden Önemli?

Eğer web ajanlarına dayanan ürünler geliştiriyorsanız—ve gittikçe daha fazla şirket bunu yapıyor—Odysseys sizin için bir uyarı işareti olmalı.

Girişimciler ve ürün geliştiriciler için: Henüz web ajanlarını karmaşık, çok adımlı iş akışları için kullanamazsınız. Ürününüz buna bağlıysa, görevleri basitleştirmeli ya da insan denetimi eklemelisiniz.

AI araştırmacıları için: Burası yeni sınır. Kolay kazançlar bitmişti. Uzun vadeli, siteler arası akıl yürütme yapabilen ajanlar yaratmak artık zorluk. Daha iyi bağlam yönetimi, gelişmiş planlama ve akıllı navigasyon stratejileri gerekiyor.

Altyapı sağlayıcıları için: Bu kıyaslama bize yeni sorular soruyor. Eğer ajanlar siteler arası akıl yürütmede zorluk çekiyorsa, API'lar ve hosting altyapısını nasıl tasarlamalıyız ki ajanlar daha kolay entegre olabilsin? DNS, SSL ve servis keşfetme mekanizmalarını "ajan-dostane" nasıl yapabiliriz?

Asıl Ders

Web ajanları henüz karmaşık görevlerde insan yerini alamaz. Ama gelişmeyi de durdurmuyorlar. Odysseys bize gerçek ilerlemeyi ölçmenin yolunu gösteriyor—sadece kolay problemlerde değil, gerçekten önemli olan işlerde.

Soru "AI bunu sonunda çözebilecek mi?" değil. Soru "Ne zaman çözebilecek?" Bugün bu teknoloji üzerinde çalışan takımlar için bu ayrım çok fark ediyor.

Kıyaslama canlı. Görev kayıtları, detaylı rubrikler ve ajan denemelerinin video kayıtları var. Web ajanlarla çalışıyorsanız, göz atmanız değer. Kendi sisteminizdeki sorunları anlamak için bulunmaz bir kaynak.

Read in other languages:

RU BG EL CS UZ SV FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN