Уеб агентите срещат достойния си съперник: Защо AI все още се проваля в реалното сърфиране
Web Agents срещат истинския си изпит: Защо AI все още се обърква в реалното сърфиране
Съпротивлението на AI в шах и го ни накара да мислим, че общият изкуствен интелект е на ъгъла. Но опитайте да накарате AI агент да резервира полет, да сравни цени от няколко магазина или да планира ваканция с прехвърляния. Вероятно ще се разочаровате – той просто се изгубва.
Проблемът не е в моделите. Мерим ги грешно.
Бенчмарковете, които не казват цялата истина
Досегашните тестове за web agents са прости. Логване в акаунт, попълване на форма, клик на бутон – всичко на един сайт, за минути. Най-добрите модели ги правят без проблеми. Тези бенчмаркове са изчерпани.
Реалният уеб е друг. Задачи като сравняване на продукти от Amazon, Walmart и специализирани сайтове, планиране на пътуване с полети, хотели и коли от различни платформи или събиране на ревюта от десетки източници – това са маратони. Изискват дълъг фокус, прескачане между сайтове и запазване на контекста за часове.
Така се ражда Odysseys.
Odysseys: Бенчмарк от реалния свят
Екип от Carnegie Mellon създаде Odysseys – 200 дълги задачи, взети от истински сесии на сърфиране, тествани на живи сайтове. Нищо изкуствено, само реална сложност и грешки.
Резултатите? Топ моделът стига до 44,5% пълен успех. Значи над половината задачи провал или непълни.
Освен това, дори успеха е труден за измерване.
Защо "успех/провал" не стига
Представете: агент планира три дни в Япония. Резервира полети, хотел, атракции. Но забравя ресторанта, който сте поискали. Успех ли е?
Класическите тестове казват да или не. Odysseys вкарва rubric-based evaluation – всяка задача се разбива на малки стъпки с ясни критерии. Получава се скала за частичен напредък, по-точна от LLM съдии.
Това променя всичко.
Ефективността – скритата слабост
Успехът не е всичко. Дори при успех, агентите са неефективни.
Odysseys мери Trajectory Efficiency – колко напредък на стъпка. Топ моделите? Само 1,15%.
Превод: правят безкрайни заобиколки, връщат се към проверени данни, кликат ненужно. Човек би свършил за 50 стъпки, агентът – за 1000. С зареждане на страници и JavaScript, това убива практическата употреба.
Какво казват данните
Тестирани са осем топ модела. Графиката на успех спрямо стъпки е S-образна: нула до 15 стъпки, скок между 20-70, спиране след 80.
API моделите се качват по-бързо от open-weight, но никой не стига до 100%. Има място за подобрение – или за провали.
Защо това засяга бизнеса
Ако правите продукти с web agents, Odysseys е аларма.
За стартъпъри и продукти: Не разчитайте на тях за сложни задачи. Опростете или добавете човек.
За AI изследователи: Лесните победи свършиха. Фокус върху дълъг контекст, планиране и навигация.
За хостинг доставчици (като нас в NameOcean): AI се затруднява с cross-site задачи. Как да направим DNS, SSL и API по-добри за агенти? Как да улесним domain и hosting интеграцията?
Главният урок
Web agents не заменят човека в сложни сценарии. Но прогресират. Odysseys дава реални метрики – не само за леки задачи, а за истинска работа.
Кога ще се справят? За екипите днес – това е ключът.
Бенчмаркът е онлайн с задачи, рубрики и видео. Проверете, ако работите с агенти – може да обясни проблемите ви.