De ce AI-ul încă patinează la navigarea reală pe web
Agenții Web AI Au Întâlnit un Zid: De Ce Încă Nu Fac Față Navigării Reale
Îți amintești cum AI a învins oamenii la șah? Apoi la Go? Fiecare victorie părea un pas spre inteligența generală. Dar când încerci un agent AI pe web pentru ceva serios – rezervă bilete, compară prețuri la mai multe magazine sau organizează o vacanță cu escale – lucrurile se complică rapid. Se rătăcesc. Se blochează.
Problema nu e în modelele AI. E în felul în care le testăm.
Benchmark-urile Fake Nu Mai Țin
Până acum, testele pentru agenți web erau prea blânde. Sarcini simple pe un singur site, rezolvate în câteva minute: "Loghează-te aici." "Completează formularul." "Apasă butonul." Modelele de top le rezolvă perfect. Nu mai aflăm nimic nou din ele.
Realitatea e alta. Task-urile adevărate sunt haotice, cu pași multipli și obstacole peste tot:
- Comparații între site-uri (Amazon, eMAG, Altex, plus alții, toți odată)
- Planuri de călătorie complexe (zboruri la mai multe companii, hoteluri, mașini închiriate, atracții de pe platforme diferite)
- Colectare de date (review-uri, prețuri, stocuri din zeci de surse)
Astea cer context pe termen lung, raționament între site-uri și concentrare ore întregi. Nu sunt ca testele scurte de până acum.
Aici intră Odysseys.
Odysseys: Testul Care Arată Adevărul
Cercetători de la Carnegie Mellon au lansat Odysseys – 200 de task-uri lungi, luate din sesiuni reale de browsing pe internetul viu. Nu site-uri false din lab. Site-uri adevărate, cu erori reale.
Rezultatele? Dure. Cel mai bun model a reușit perfect doar 44,5% din task-uri. Adică peste jumătate au eșuat sau s-au oprit pe drum.
Și evaluarea succesului e mai grea decât pare.
Pas/Fail Nu Mai Merge
Gândește-te: agentul planifică o vacanță de trei zile în Japonia. Rezervă zboruri, găsește hotel, listează atracții. Dar uită un restaurant cerut clar. Succes sau eșec?
Testele vechi forțează un răspuns alb-negru. Odysseys folosește evaluare pe rubrică – descompune task-ul în puncte verificate separat. Note pe scară, cu criterii clare pentru progres parțial. Metoda asta se potrivește mai bine cu judecata umană decât "întreabă un LLM ce crede".
Diferența contează enorm.
Eficiența: Problema Ascunsă
Succesul nu e totul. Chiar când reușesc, agenții sunt ineficienți rău.
Odysseys măsoară Trajectory Efficiency – progres pe rubrică la fiecare pas. Cam ca "eficiența pe bănuț calculat".
Rezultat: doar 1,15% eficiență la modelele de top.
Ce înseamnă? Detururi inutile, verificări repetate, pași risipiți. Un om face în 50 de click-uri ce ei fac în 1000. Fiecare pas înseamnă pagină nouă, JavaScript lent, navigare complicată. Pentru aplicații reale, e un dezastru economic.
Ce Spune Datele Clar
Au testat opt modele de top. Graficul succes vs. "buget de pași" arată clar:
Curbe sigmoidale. Aproape zero succes în primii 15 pași. Creștere bruscă între 20-70. După 80, plafon.
Modelele API urcă mai rapid decât cele open-source. Dar niciuna nu ajunge la 100%. Spațiu mult de îmbunătățit – sau de eșec.
De Ce Să-ți Pase de Asta
Dacă dezvolți produse cu agenți web – și firmele o fac tot mai mult – Odysseys e un semnal de alarmă.
Pentru fondatori și developeri: Nu poți baza produse pe task-uri complexe multi-site. Simplifică sau adaugă supraveghere umană.
Pentru cercetători AI: Wins-urile ușoare s-au dus. Trebuie context mai bun, planificare avansată, navigare inteligentă.
Pentru furnizori de infrastructură (ca noi la NameOcean): Ridică întrebări cheie. Dacă agenții se chinuie cu raționament cross-domain, cum facem API-urile, hosting-ul mai prietenoase? Cum optimizăm DNS, SSL și discovery pentru agenți?
Concluzia Reală
Agenții web nu înlocuiesc încă oamenii la task-uri grele. Dar progresează. Odysseys măsoară avansul adevărat – nu pe probleme facile, ci pe cele care contează.
Nu e dacă, ci când. Pentru echipele de azi, diferența asta schimbă totul.
Benchmark-ul e public, cu task-uri, rubrici și video-uri. Dacă lucrezi cu agenți web, verifică-l. Poate explică de ce implementarea ta se poticnește.