Уеб агентите срещат достойния си съперник: Защо AI все още се проваля в реалното сърфиране

Уеб агентите срещат достойния си съперник: Защо AI все още се проваля в реалното сърфиране

Апр 29, 2026 ai web-agents benchmarking machine-learning automation long-horizon-tasks frontier-models

Web Agents срещат истинския си изпит: Защо AI все още се обърква в реалното сърфиране

Съпротивлението на AI в шах и го ни накара да мислим, че общият изкуствен интелект е на ъгъла. Но опитайте да накарате AI агент да резервира полет, да сравни цени от няколко магазина или да планира ваканция с прехвърляния. Вероятно ще се разочаровате – той просто се изгубва.

Проблемът не е в моделите. Мерим ги грешно.

Бенчмарковете, които не казват цялата истина

Досегашните тестове за web agents са прости. Логване в акаунт, попълване на форма, клик на бутон – всичко на един сайт, за минути. Най-добрите модели ги правят без проблеми. Тези бенчмаркове са изчерпани.

Реалният уеб е друг. Задачи като сравняване на продукти от Amazon, Walmart и специализирани сайтове, планиране на пътуване с полети, хотели и коли от различни платформи или събиране на ревюта от десетки източници – това са маратони. Изискват дълъг фокус, прескачане между сайтове и запазване на контекста за часове.

Така се ражда Odysseys.

Odysseys: Бенчмарк от реалния свят

Екип от Carnegie Mellon създаде Odysseys – 200 дълги задачи, взети от истински сесии на сърфиране, тествани на живи сайтове. Нищо изкуствено, само реална сложност и грешки.

Резултатите? Топ моделът стига до 44,5% пълен успех. Значи над половината задачи провал или непълни.

Освен това, дори успеха е труден за измерване.

Защо "успех/провал" не стига

Представете: агент планира три дни в Япония. Резервира полети, хотел, атракции. Но забравя ресторанта, който сте поискали. Успех ли е?

Класическите тестове казват да или не. Odysseys вкарва rubric-based evaluation – всяка задача се разбива на малки стъпки с ясни критерии. Получава се скала за частичен напредък, по-точна от LLM съдии.

Това променя всичко.

Ефективността – скритата слабост

Успехът не е всичко. Дори при успех, агентите са неефективни.

Odysseys мери Trajectory Efficiency – колко напредък на стъпка. Топ моделите? Само 1,15%.

Превод: правят безкрайни заобиколки, връщат се към проверени данни, кликат ненужно. Човек би свършил за 50 стъпки, агентът – за 1000. С зареждане на страници и JavaScript, това убива практическата употреба.

Какво казват данните

Тестирани са осем топ модела. Графиката на успех спрямо стъпки е S-образна: нула до 15 стъпки, скок между 20-70, спиране след 80.

API моделите се качват по-бързо от open-weight, но никой не стига до 100%. Има място за подобрение – или за провали.

Защо това засяга бизнеса

Ако правите продукти с web agents, Odysseys е аларма.

За стартъпъри и продукти: Не разчитайте на тях за сложни задачи. Опростете или добавете човек.

За AI изследователи: Лесните победи свършиха. Фокус върху дълъг контекст, планиране и навигация.

За хостинг доставчици (като нас в NameOcean): AI се затруднява с cross-site задачи. Как да направим DNS, SSL и API по-добри за агенти? Как да улесним domain и hosting интеграцията?

Главният урок

Web agents не заменят човека в сложни сценарии. Но прогресират. Odysseys дава реални метрики – не само за леки задачи, а за истинска работа.

Кога ще се справят? За екипите днес – това е ключът.

Бенчмаркът е онлайн с задачи, рубрики и видео. Проверете, ако работите с агенти – може да обясни проблемите ви.

Read in other languages:

RU EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN