Weboví agenti AI dostávají ránu: Proč ještě neumí normálně surfovat po internetu
Weboví agenti narazili na střechu: Proč současná AI selhává v reálném prohlížení webu
Pamatujete, jak AI porazila šachy? Pak Go? Každý takový úspěch sliboval AGI za rohem. Ale zkuste AI agenta na něco praktického – rezervaci letenek, srovnání cen u pěti e-shopů nebo plánování dovolené s přestupy. Většinou se ztratí.
Problém není v modelech. Měřili jsme je špatně.
Benchmarky, které zklamaly
Dosud testy webových agentů byly příliš snadné. Jednoduché úkoly na jednom webu: přihlásit se, vyplnit formulář, kliknout tlačítko. Nejlepší modely to zvládají na jedničku. Testy jsou vyčerpané, nic nového neříkají.
Realita je jiná. Skutečné úkoly jsou složité, vícekrokové a chaotické:
- Srovnání zboží napříč obchody (Amazon, Alza, specializované shopy najednou)
- Plánování cest (lety u více aerolinek, hotely, auta, atrakce na různých platformách)
- Shromažďování dat (recenze, ceny, dostupnost z desítek zdrojů)
Potřebují dlouhodobou paměť, uvažování mezi weby a soustředění na hodiny. To je opak krátkých testů.
Přicházejí Odysseys.
Odysseys: Benchmark z pravého světa
Výzkumníci z Carnegie Mellon vytvořili Odysseys – 200 dlouhých úkolů z reálných prohlížení webu. Testováno na živých stránkách, ne v laboratoři. Žádné falešné weby, jen opravdová složitost a chyby.
Výsledky? Tvrdé. Nejlepší model dosáhl 44,5 % úspěšnosti. Tedy přes 55 % úkolů selhalo nebo zůstalo nedokončených.
Hodnocení dlouhých úkolů je samo o sobě trik.
Proč ano/ne nestačí
Představte si: Agent plánuje třídenní trip do Japonska. Zarezervuje lety, hotel, tri atrakce. Ale zapomněl na tu restauraci, kterou jste chtěli. Úspěch nebo selhání?
Tradiční testy nutí vybrat. Ve skutečnosti to bylo částečné. Odysseys používá rubriky – úkol rozloží na malé kroky s jasnými kritérii. Žádné černobílé, ale stupnice. Souhlas s lidským hodnocením je vyšší než u LLM-soudců, co jen mrknou na celý záznam.
To dělá rozdíl.
Efektivita, kterou nikdo nečekal
Úspěšnost nestačí. I když agent uspěje, je neefektivní.
Odysseys měří Trajectory Efficiency – kolik pokroku na krok. Kolik "bangu" za výpočet.
Výsledek: Nejlepší agenti jen 1,15 %. Bloudí, vrací se k ověřenému, plýtvají kroky. Člověk to udělá za 50 kroků, agent za 1000. Každý krok znamená načítání stránky, čekání na JS, navigaci. Pro praxi to ruší – stojí to peníze.
Co data odhalují
Testováno osm modelů, frontier i open-source. Graf úspěšnosti vs. počet kroků? Sigmoidy. Nula do 15 kroků. Skok mezi 20–70. Po 80 stagnace.
API modely stoupají rychleji, ale nikdo nedosáhl stropy. Je tam obrovský prostor nahoře – nebo na selhání.
Proč to mění hru
Pokud stavíte na webových agentech – a firmy to dělají – Odysseys je budík.
Pro zakladatele a vývojáře: Komplexní workflowy ještě nedáš na agenta. Zjednodušte úkol nebo přidejte člověka.
Pro AI vědce: Snadné výhry skončily. Teď dlouhé uvažování mezi weby, lepší plánování, navigace.
Pro poskytovatele infrastruktury (jako my v NameOcean): Jak navrhnout služby pro agenty? DNS, SSL, API tak, aby agentům seděly domény, hosting a objevování služeb. Agent-friendly web.
Závěr na rovinu
Weboví agenti nejsou na složité úkoly. Ale posun se děje. Odysseys měří skutečný pokrok – ne jen lehké úkoly, ale reálnou práci.
Otázka je kdy to přijde. Pro týmy teď to znamená plánovat opatrně.
Benchmark je online s úkoly, rubrikami a videi. Podívejte se, pokud ladíte agenty. Odhalí, kde se láme.