Los agentes web tienen un rival imbatible: por qué la IA actual patina en la navegación real

Abr 29, 2026 ai web-agents benchmarking machine-learning automation long-horizon-tasks frontier-models

Los Agentes Web de IA Tienen un Rival Duro: Por Qué Aún Fallan en Tareas Reales de Navegación

Todos celebramos cuando la IA venció al ajedrez humano. Luego al Go. Cada logro parecía un paso hacia la inteligencia general. Pero si has probado un agente web de IA para algo práctico —reservar un vuelo, comparar precios en varios sitios o armar un viaje con varias paradas— sabes la verdad: se pierden rápido.

El fallo no está en los modelos. Está en cómo los evaluamos.

El Vacío en los Benchmarks que Nadie Veía

Hasta hace poco, las pruebas de agentes web eran demasiado amables. Se centraban en tareas simples de un solo sitio, resueltas en minutos: "Inicia sesión aquí". "Rellena este formulario". "Haz clic en ese botón". Los modelos top ya las dominan por completo. No nos dicen nada nuevo.

La navegación real es otra historia. Las tareas útiles son caóticas, largas y multi-paso:

Comparar productos en rivales (mirando Amazon, Walmart, Best Buy y tiendas nicho al mismo tiempo).
Armar viajes complicados (vuelos en aerolíneas distintas, hoteles, autos y atracciones en plataformas variadas).
Juntar datos dispersos (reseñas, precios y stock de decenas de fuentes).

Exigen contexto prolongado, razonamiento entre sitios y foco durante horas. Nada que ver con las pruebas cortas de un solo dominio.

Llega Odysseys para cambiar eso.

Odysseys: Un Benchmark que Refleja la Vida Real

Creado por investigadores de Carnegie Mellon, Odysseys trae 200 tareas largas sacadas de sesiones reales de navegación. Se prueban en internet vivo, con sitios auténticos, complejidad genuina y fallos cotidianos. Nada de simulaciones de laboratorio.

Los números duelen: el mejor modelo frontier solo acertó al 44,5% en tareas perfectas. O sea, más de la mitad fracasa en flujos realistas.

Y ni siquiera medir el "éxito" es fácil aquí.

Pasar o Fallar Ya No Basta

Ponte en esto: pides planear un viaje de tres días a Japón. El agente reserva vuelos, hotel y tres atracciones. Pero olvida ese restaurante que mencionaste. ¿Éxito o fracaso?

Las evaluaciones clásicas te obligan a elegir. Odysseys usa evaluación por rúbricas: divide cada tarea en checkpoints verificables por separado. Da puntajes parciales con criterios claros. Coincide más con jueces humanos que los típicos LLM-as-judge, que solo miran la secuencia completa y opinan.

Esto marca la diferencia real.

El Problema de Eficiencia que Sorprendió a Todos

No solo cuenta el éxito. Incluso cuando aciertan, los agentes despilfarran pasos.

Odysseys mide eficiencia de trayectoria: progreso en la rúbrica por cada acción. Como rentabilidad por cómputo.

Resultado: máximo del 1,15%. Los agentes dan rodeos, se distraen, repiten chequeos y queman pasos como si costaran plata. En usos reales, con cargas de páginas, JavaScript lento y sitios enredados, 1.000 pasos para algo que un humano hace en 50 no es viable.

Qué Revelan los Datos

Probaron ocho modelos frontier y open-weight. Graficaron éxito perfecto contra "presupuesto de pasos" (acciones máximas antes de rendirse). El patrón es nítido:

Curvas sigmoides en todos. Cero éxito en los primeros 15 pasos. Subida fuerte entre 20 y 70. Después de 80, se estanca.

Los frontier API suben más rápido y alto que los open-weight. Pero ninguno llega cerca del 100%. Hay mucho por mejorar... o mucho riesgo de fallo.

Por Qué Importa al Mundo Tech

Si desarrollas productos con agentes web —y cada vez más lo hacen—, Odysseys es un baño de realidad.

A emprendedores y creadores: No confíes en agentes para flujos complejos multi-paso. Aún no. Simplifica tareas o mete supervisión humana.

A investigadores de IA: Se acabaron las victorias fáciles. El reto es razonamiento largo, multi-sitio. Necesitan mejor manejo de contexto, planificación y navegación inteligente.

A proveedores de infra (como nosotros en NameOcean): Esto cuestiona cómo armamos servicios web accesibles. Si los agentes patinan en razonamiento cross-domain y contexto entre sitios, ¿cómo optimizamos DNS, SSL y hosting para integrarlos fácil? ¿APIs y discovery "amigables" para agentes?

La Lección Clave

Los agentes web no reemplazan aún el juicio humano en lo complejo. Pero avanzan. Odysseys mide progreso verdadero: no mejoras en tareas simples, sino manejo de lo que cuenta.

No es si la IA lo logrará. Es cuándo. Para equipos que lo usan hoy, esa espera define todo.

El benchmark está online, con tareas, rúbricas detalladas y videos de intentos. Si trabajas con agentes web, revísalo. Podría explicar por qué tu setup falla.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL HU IT FR DE DA ZH-HANS EN