Webowe agenty AI mają godnego rywala: dlaczego wciąż kuleją w realnym przeglądaniu sieci

Kwi 29, 2026 ai web-agents benchmarking machine-learning automation long-horizon-tasks frontier-models

Agenci webowi kontra rzeczywistość: Dlaczego AI jeszcze gubi się w sieci

Pamiętasz, jak AI pokonało ludzi w szachach, a potem w Go? Każdy taki sukces obiecywał rewolucję. Ale spróbuj poprosić agenta AI o coś praktycznego – rezerwację lotu, porównanie cen w kilku sklepach czy zaplanowanie wakacji z przesiadkami. Zazwyczaj kończy się frustracją. Agent po prostu się gubi.

Wina nie leży w samych modelach. Problem to złe testy.

Benchmarki, które mijają się z prawdą

Do niedawna testy agentów webowych były zbyt łagodne. Skupiały się na prostych zadaniach na jednej stronie: zaloguj się, wypełnij formularz, kliknij przycisk. Najnowsze modele radzą sobie z tym bez problemu. Wyniki są bliskie ideału – nic nowego nie odkrywamy.

Tymczasem prawdziwe zadania w sieci to chaos: wieloetapowe akcje na wielu stronach.

Porównywanie ofert z Amazon, Walmart, Best Buy i niszowych sklepów naraz.
Planowanie wyjazdu z lotami u różnych przewoźników, hotelami, wypożyczalniami aut i atrakcjami.
Zbieranie danych z recenzji, cen i dostępności z kilkunastu źródeł.

Tu potrzeba długotrwałej koncentracji, rozumienia między stronami i wytrwałości przez godziny. To odwrotność tych krótkich testów.

Poznaj Odysseys.

Odysseys: Testy z prawdziwego internetu

Zespół z Carnegie Mellon stworzył Odysseys – zbiór 200 długich zadań opartych na rzeczywistych sesjach przeglądania. Wszystko dzieje się na żywych stronach, z pełną złożonością i typowymi błędami. Żadnych symulacji.

Wyniki? Przerażające. Najlepszy model osiągnął tylko 44,5% idealnych sukcesów. Ponad połowa realnych zadań kończy się porażką.

A ocena sukcesu to osobny problem.

Pass/fail to za mało – potrzeba skali

Wyobraź sobie: agent planuje trzydniowy wyjazd do Japonii. Rezerwuje loty, hotel, trzy atrakcje. Ale zapomina o poleconej restauracji. Sukces czy klęska?

Stare metody każą wybierać jedno. Odysseys stosuje ocenę rubriczną – dzieli zadanie na małe kroki, oceniane osobno. Zamiast zero-jedynkowego wyniku dostajemy skalę z konkretnymi punktami. To lepiej zgadza się z oceną człowieka niż typowe LLM-as-judge.

Różnica jest kluczowa.

Efektywność, której brakuje

Sukces to nie wszystko. Nawet przy wygranej agenci marnują kroki. Odysseys mierzy Trajectory Efficiency – postęp na krok. Jak efektywność obliczeniowa.

Wynik? Tylko 1,15% u topowych modeli. Agent kręci się w kółko, sprawdza to samo po dwa razy, zbacza z drogi. Ludzie robią to w 50 krokach, AI w tysiącu. Koszty rosną: ładowanie stron, JavaScript, nawigacja. Dla biznesu to bariera.

Co mówią liczby

Testowano osiem modeli – zamkniętych i otwartych. Krzywe sukcesu w funkcji kroków? Sigmoidy. Zero przez pierwsze 15 kroków, skok w 20-70, plateau po 80.

Zamknięte modele idą wyżej i szybciej. Ale żaden nie dobija do 100%. Dużo miejsca na poprawę – lub błędy.

Co to znaczy dla branży

Budujesz produkt z agentami webowymi? Czas na otrzeźwienie.

Dla founderów i product managerów: Nie licz na agentów w skomplikowanych workflowach. Uprość zadania albo dodaj człowieka.

Dla badaczy AI: Łatwe zadania za nami. Teraz wyzwanie to długie sesje, planowanie między stronami i lepsza nawigacja.

Dla dostawców infrastruktury (jak my w NameOcean): Jak dostosować hosting, DNS, SSL i API do agentów? Muszą łatwiej rozumieć kontekst między domenami i odkrywać serwisy.

Prawdziwy wniosek

Agenci webowi nie zastąpią ludzi w trudnych zadaniach. Ale idą naprzód. Odysseys pokazuje realny postęp – nie tylko w prostych testach, ale w tym, co liczy się na co dzień.

Pytanie brzmi: kiedy to ogarną? Dla dzisiejszych projektów to decyduje o wszystkim.

Benchmark jest publiczny: zadania, rubryki, nagrania. Sprawdź, jeśli walczysz z agentami. Może wyjaśni problemy twojej implementacji.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT NB NL HU IT FR ES DE DA ZH-HANS EN