Web Agentlarning raqibi paydo bo'ldi: Nega hozirgi AI haqiqiy internetda qiynalmoqda?

Apr 29, 2026 ai web-agents benchmarking machine-learning automation long-horizon-tasks frontier-models

Web Agentlarning haqiqiy sinovi: Nega hozirgi AI internetda yo‘qolib qoladi

AI shaxmatda, keyin Go o‘yinida odamlarni yengganda hamma "Endi umumiy AI yaqin" deb o‘ylardi. Lekin haqiqiy ishda – parvoz buyurtma qilish, bir nechta do‘konda mahsulot solishtirish yoki shaharlar bo‘ylab sayohat rejalashtirishda – agentlar adashib qoladi.

Muammo modellar emas. Biz ularni noto‘g‘ri o‘lchab kelyapmiz.

Eski testlarning yolg‘onligi

Ilgari web agent benchmarklari oddiy edi: bitta saytda tez bajariladigan vazifalar. "Kirish qil", "shaklni to‘ldir", "tugmani bos". Eng yaxshi modellar bularni 100% bajaryapti. Hech qanday ma’lumot bermaydi endi.

Haqiqatda esa vazifalar murakkab:

Do‘konlarni solishtirish (Amazon, Walmart, Best Buy va boshqalarni bir vaqtda tekshirish)
Sayohat rejalashtirish (parvozlar, mehmonxonalar, mashinalar va joylarni turli platformalarda qidirish)
Ma’lumot yig‘ish (sharhlarni, narxlarni va zaxiralarni ko‘p manbalardan jamlashtirish)

Bular uzoq muddatli, ko‘p saytli va diqqatni talab qiladi. Eski testlar bunga mos emas.

Mana Odysseys paydo bo‘ldi.

Odysseys: Haqiqiy dunyoga yaqin benchmark

Carnegie Mellon universiteti olimlari 200 ta uzoq vazifani haqiqiy internet saytlaridan yig‘ib, Odysseysni chiqardi. Soxta saytlar emas, jonli internetdagi murakkabliklar.

Natija og‘ir: eng kuchli modellar 44,5% muvaffaqiyatga erishdi. Ya’ni 55% vazifa muvaffaqiyatsiz tugadi.

Oddiy "muvaffaqiyat/yuq" yetarli emas

Masalan, Yaponiyaga 3 kunlik sayohat rejasini agent tuzdi: parvoz, mehmonxona, 3 ta joy topdi. Lekin siz so‘ragan restoranni unutdi. Bu muvaffaqiyatmi yoki yo‘qmi?

Odysseys rubrika bahosi kiritdi: har vazifani mayda tekshiruvlarga bo‘lib, alohida baholaydi. "To‘liq" emas, "qisman" ko‘rsatadi. Bu inson bahosiga yaqinroq.

Tezlik muammosi

Muvaffaqiyatni faqat foiz bilan o‘lchash yetarli emas. Agentlar g‘alaba qozongan taqdirda ham juda sekin.

Trajectory Efficiency ko‘rsatkichi chiqdi: har qadamda qancha rivojlanish. Natija – 1,15%. Agentlar aylanib yuradi, takrorlaydi, keraksiz qadamlar sarflaydi. Odam 50 qadamda bajarsa, agent 1000 qadam ketadi. Bu iqtisodiy jihatdan qimmatga tushadi.

Test natijalari nimani ko‘rsatdi

8 ta model sinovdan o‘tdi. Qadamlar soniga qarab chizma chizishganda sigmoidal egri chizilqisi: 15 qadagacha nol, 20-70 orasida o‘sish, 80 dan keyin to‘xtaydi.

API modellar ochiq modellaridan yaxshiroq, lekin hech biri 100% ga yaqinlashmadi. Katta rivojlanish maydoni bor.

Soha uchun ahamiyati

Web agentlarga tayanib mahsulot yasayotganlar uchun bu ogohlantirish.

Dasturchilar va asoschilar: Murakkab vazifalarga ishonmang. Vazifani soddalashtiring yoki odam nazoratini qo‘shing.

Tadqiqotchilar: Oson g‘alabalar tugadi. Uzoq muddatli rejalashtirish va navigatsiyani yaxshilang.

Infrastruktura provayderlari (masalan, biz NameOcean): Agentlar domenlar orasida adashsa, API, DNS, SSL ni agentlarga qulay qilishimiz kerak. Hostingni shunday tuzamizki, osongina topilsin.

Asosiy xulosa

Web agentlar murakkab ishda odamni almashtira olmaydi hali. Lekin rivojlanmoqda. Odysseys haqiqiy o‘sishni o‘lchaydi.

Qachon hal bo‘ladi? Bugun ishlayotganlar uchun bu muhim.

Benchmark ochiq: vazifalar, rubrikalar va videolar bor. Sinab ko‘ring, nima uchun agentlaringiz ishlamasligini tushunasiz.

Read in other languages:

RU BG EL CS TR SV FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN