Веб-агенты AI встретили соперника: почему современный ИИ всё ещё буксует в реальном браузинге

Веб-агенты AI встретили соперника: почему современный ИИ всё ещё буксует в реальном браузинге

Апр 29, 2026 ai web-agents benchmarking machine-learning automation long-horizon-tasks frontier-models

Веб-агенты AI наткнулись на стену: почему они всё ещё лажают в реальном браузинге

Помните эйфорию, когда AI обыграл человека в шахматы? Потом в Go? Казалось, AGI на подходе. Но попробуйте заставить AI-агента забронировать билеты, сравнить товары в разных магазинах или спланировать тур по нескольким городам. В 99% случаев он запутается и сдастся.

Дело не в моделях. Мы просто тестировали их не так.

Бенчмарки, которые ничего не говорят о жизни

Раньше тесты веб-агентов были простыми. Логин на сайт. Заполни форму. Кликни кнопку. Всё на одном ресурсе, за пару минут. Топовые модели уже рвут эти бенчмарки в клочья. Насыщение полное — пользы ноль.

Реальность другая. Полезные задачи — это каша из шагов, сайтов и часов работы:

  • Сравнение цен и товаров на Amazon, Walmart, Best Buy и нишевых магазинах сразу.
  • Планирование поездок с перелётами, отелями, ареной машин и экскурсиями на куче платформ.
  • Сбор данных из отзывов, цен и наличия по десяткам источников.

Нужен долгий фокус, логика между сайтами и память на часы. Odysseys — новый бенчмарк — это как раз про это.

Odysseys: тесты из настоящей жизни

Команда из Carnegie Mellon собрала 200 задач по реальным сессиям браузинга. Не симуляции, а живой интернет с настоящими сайтами и их подставами. Результаты грустные: лучшая модель справилась идеально только в 44,5% случаев. Остальное — провал или недоделка.

Проблема с "успехом" или "провалом"

Представьте: агент планирует тур в Японию на три дня. Забронировал рейсы, нашёл отель, подобрал три достопримечательности. Но забыл про ресторан, который вы просили. Успех или фейл?

Обычные тесты заставляют выбрать чёрное или белое. Odysseys ввёл rubric-based evaluation — разбивку на мелкие чекпоинты. Каждый оценивается отдельно, с градацией. Это точнее, чем кидать траекторию LLM-оценщику и спрашивать "ну как?".

Эффективность — вторая половина провала

Успех — это не всё. Даже при победе агенты тратят шаги впустую. Odysseys ввёл Trajectory Efficiency — прогресс по рубрике на шаг. Итог: всего 1,15% у лидеров.

Агенты петляют, проверяют старое заново, ждут JS и тонут в меню. Человек сделает за 50 шагов, AI — за 1000. Для бизнеса это убийственно: каждый шаг — загрузка страницы, API-колл, токены.

Что показывают цифры

Протестировали восемь моделей — от frontier до open-weight. График успеха по "бюджету шагов" — сигмоида. Первые 15 шагов — ноль. Взлёт на 20–70. После 80 — плато.

API-модели растут круче open-source, но никто не дошёл до 100%. Потенциал огромный. Или дыра — смотря как посмотреть.

Почему это важно для всех

Если вы строите продукты на веб-агентах — Odysseys как холодный душ.

Разработчикам и фаундерам: Не надейтесь на агентов для сложных цепочек. Упрощайте задачи или добавляйте человека в петлю.

Исследователям AI: Лёгкие победы кончились. Фокус на долгосрочной памяти, планировании и навигации по сайтам.

Провайдерам инфраструктуры (вроде нас в NameOcean): Агенты плохо понимают cross-site логику. Как сделать DNS, SSL и API "agent-friendly"? Чтобы discovery сервисов был проще, хостинг — надёжнее, домены — интуитивнее для AI.

Главный вывод

Веб-агенты не заменят людей в сложном. Но прогресс идёт. Odysseys даёт метрики для реальных задач — не игрушек.

Вопрос не "сбудется ли", а "когда". Бенчмарк открыт: задачи, рубрики, видео фейлов. Загляните — поймёте, почему ваш агент тормозит.

Read in other languages:

BG EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN