Webowe agenty AI mają godnego rywala: dlaczego wciąż kuleją w realnym przeglądaniu sieci
Agenci webowi kontra rzeczywistość: Dlaczego AI jeszcze gubi się w sieci
Pamiętasz, jak AI pokonało ludzi w szachach, a potem w Go? Każdy taki sukces obiecywał rewolucję. Ale spróbuj poprosić agenta AI o coś praktycznego – rezerwację lotu, porównanie cen w kilku sklepach czy zaplanowanie wakacji z przesiadkami. Zazwyczaj kończy się frustracją. Agent po prostu się gubi.
Wina nie leży w samych modelach. Problem to złe testy.
Benchmarki, które mijają się z prawdą
Do niedawna testy agentów webowych były zbyt łagodne. Skupiały się na prostych zadaniach na jednej stronie: zaloguj się, wypełnij formularz, kliknij przycisk. Najnowsze modele radzą sobie z tym bez problemu. Wyniki są bliskie ideału – nic nowego nie odkrywamy.
Tymczasem prawdziwe zadania w sieci to chaos: wieloetapowe akcje na wielu stronach.
- Porównywanie ofert z Amazon, Walmart, Best Buy i niszowych sklepów naraz.
- Planowanie wyjazdu z lotami u różnych przewoźników, hotelami, wypożyczalniami aut i atrakcjami.
- Zbieranie danych z recenzji, cen i dostępności z kilkunastu źródeł.
Tu potrzeba długotrwałej koncentracji, rozumienia między stronami i wytrwałości przez godziny. To odwrotność tych krótkich testów.
Poznaj Odysseys.
Odysseys: Testy z prawdziwego internetu
Zespół z Carnegie Mellon stworzył Odysseys – zbiór 200 długich zadań opartych na rzeczywistych sesjach przeglądania. Wszystko dzieje się na żywych stronach, z pełną złożonością i typowymi błędami. Żadnych symulacji.
Wyniki? Przerażające. Najlepszy model osiągnął tylko 44,5% idealnych sukcesów. Ponad połowa realnych zadań kończy się porażką.
A ocena sukcesu to osobny problem.
Pass/fail to za mało – potrzeba skali
Wyobraź sobie: agent planuje trzydniowy wyjazd do Japonii. Rezerwuje loty, hotel, trzy atrakcje. Ale zapomina o poleconej restauracji. Sukces czy klęska?
Stare metody każą wybierać jedno. Odysseys stosuje ocenę rubriczną – dzieli zadanie na małe kroki, oceniane osobno. Zamiast zero-jedynkowego wyniku dostajemy skalę z konkretnymi punktami. To lepiej zgadza się z oceną człowieka niż typowe LLM-as-judge.
Różnica jest kluczowa.
Efektywność, której brakuje
Sukces to nie wszystko. Nawet przy wygranej agenci marnują kroki. Odysseys mierzy Trajectory Efficiency – postęp na krok. Jak efektywność obliczeniowa.
Wynik? Tylko 1,15% u topowych modeli. Agent kręci się w kółko, sprawdza to samo po dwa razy, zbacza z drogi. Ludzie robią to w 50 krokach, AI w tysiącu. Koszty rosną: ładowanie stron, JavaScript, nawigacja. Dla biznesu to bariera.
Co mówią liczby
Testowano osiem modeli – zamkniętych i otwartych. Krzywe sukcesu w funkcji kroków? Sigmoidy. Zero przez pierwsze 15 kroków, skok w 20-70, plateau po 80.
Zamknięte modele idą wyżej i szybciej. Ale żaden nie dobija do 100%. Dużo miejsca na poprawę – lub błędy.
Co to znaczy dla branży
Budujesz produkt z agentami webowymi? Czas na otrzeźwienie.
Dla founderów i product managerów: Nie licz na agentów w skomplikowanych workflowach. Uprość zadania albo dodaj człowieka.
Dla badaczy AI: Łatwe zadania za nami. Teraz wyzwanie to długie sesje, planowanie między stronami i lepsza nawigacja.
Dla dostawców infrastruktury (jak my w NameOcean): Jak dostosować hosting, DNS, SSL i API do agentów? Muszą łatwiej rozumieć kontekst między domenami i odkrywać serwisy.
Prawdziwy wniosek
Agenci webowi nie zastąpią ludzi w trudnych zadaniach. Ale idą naprzód. Odysseys pokazuje realny postęp – nie tylko w prostych testach, ale w tym, co liczy się na co dzień.
Pytanie brzmi: kiedy to ogarną? Dla dzisiejszych projektów to decyduje o wszystkim.
Benchmark jest publiczny: zadania, rubryki, nagrania. Sprawdź, jeśli walczysz z agentami. Może wyjaśni problemy twojej implementacji.