Agentes Web Encontram o Parecido: Por Que a IA Ainda Patina no Browsing Real

Abr 29, 2026 ai web-agents benchmarking machine-learning automation long-horizon-tasks frontier-models

Agentes Web de IA Enfrentam Seu Maior Desafio: Por Que Ainda Falham na Navegação Real

Lembra quando a IA venceu humanos no xadrez? Depois no Go? Cada vitória parecia um passo para a inteligência artificial geral. Mas tente usar um agente de IA na web para algo prático – reservar voo, comparar preços em várias lojas ou montar roteiro de viagem com várias cidades. Provavelmente, ele se perdeu no caminho.

O erro não está nos modelos de IA. Está na forma como os testamos.

O Buraco nos Testes Tradicionais

Até pouco tempo, os benchmarks de agentes web eram superficiais. Focavam tarefas simples em um site só: "Faça login". "Preencha o formulário". "Clique no botão". Modelos de ponta já dominam isso. Os testes saturaram – não revelam mais nada novo.

A web real é outra história. Tarefas úteis são bagunçadas, com várias etapas e sites diferentes:

Comparar produtos em Amazon, Walmart, Best Buy e lojas nichadas ao mesmo tempo.
Planejar viagens complexas com voos de várias companhias, hotéis, carros e passeios em plataformas distintas.
Juntar dados de reviews, preços e estoque de dezenas de fontes.

Isso exige contexto longo, raciocínio entre sites e foco por horas. Nada a ver com tarefas curtas e isoladas.

Apresento o Odysseys.

Odysseys: Testes que Imitam a Vida Real

Pesquisadores da Carnegie Mellon criaram o Odysseys – 200 tarefas longas baseadas em sessões reais de navegação na internet ao vivo. Sem sites falsos ou labs controlados. É a web de verdade, com falhas reais.

Os números? Preocupantes. O melhor modelo de ponta acertou só 44,5% das tarefas perfeitamente. Ou seja, mais da metade falhou ou ficou pela metade.

E avaliar sucesso em tarefas longas é mais complicado do que parece.

Passou ou Reprovou? Essa Métrica Não Basta

Pense nisso: agente planeja viagem de três dias ao Japão. Reserva voos, hotel e três atrações. Mas esquece o restaurante que você pediu. Sucesso ou fracasso?

Benchmarks antigos forçam um sim ou não. Na prática, foi um acerto parcial. O Odysseys usa avaliação por rubrica – divide tarefas em checkpoints independentes, com notas parciais e critérios claros. Isso alinha melhor com juízes humanos do que pedir a uma IA para "avaliar tudo".

Diferença crucial.

O Problema da Eficiência que Ninguém Viu Chegar

Sucesso é só parte da equação. Mesmo quando acertam, os agentes desperdiçam passos.

O Odysseys mede eficiência de trajetória – progresso na rubrica por ação no navegador. Tipo "retorno por esforço computacional".

Resultado: só 1,15% nos melhores agentes. Eles dão voltas, repetem buscas, se distraem e gastam milhares de passos onde humanos usariam 50. Cada passo carrega páginas, espera JavaScript e lida com sites complicados. Para uso real, inviável.

O Que os Dados Revelam de Verdade

Testaram oito modelos de ponta e open-weight. Gráfico de acertos por "orçamento de passos" mostra curvas sigmoides: zero nos primeiros 15 passos, pico entre 20-70, platô após 80.

Modelos pagos sobem mais rápido e alto que os grátis. Mas nenhum chega perto de 100%. Espaço enorme para melhorar – ou falhar.

Impacto no Mercado

Se você desenvolve produtos com agentes web – e cada vez mais empresas fazem –, Odysseys é um alerta.

Para fundadores e devs: Não conte com agentes para fluxos complexos ainda. Simplifique tarefas ou adicione humanos no loop.

Para pesquisadores de IA: Fim das vitórias fáceis. Agora é hora de contexto duradouro, planejamento multi-site e navegação esperta.

Para provedores de infra (como nós na NameOcean): Faz pensar em serviços web acessíveis por IA. Como tornar DNS, SSL e APIs mais amigáveis a agentes? Hosting e descoberta de serviços precisam evoluir para contextos cross-domain.

Lição Principal

Agentes web não substituem humanos em tarefas complicadas. Mas avançam. Odysseys mede progresso real – não só ganhos em problemas bobos, mas em desafios úteis.

Não é "se" a IA vai resolver. É "quando". Para quem constrói hoje, isso muda tudo.

O benchmark está online, com tarefas, rubricas e vídeos das tentativas. Vale conferir se você mexe com agentes web. Pode explicar por que o seu ainda patina.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PL NB NL HU IT FR ES DE DA ZH-HANS EN