Agentes Web Encontram o Parecido: Por Que a IA Ainda Patina no Browsing Real
Agentes Web de IA Enfrentam Seu Maior Desafio: Por Que Ainda Falham na Navegação Real
Lembra quando a IA venceu humanos no xadrez? Depois no Go? Cada vitória parecia um passo para a inteligência artificial geral. Mas tente usar um agente de IA na web para algo prático – reservar voo, comparar preços em várias lojas ou montar roteiro de viagem com várias cidades. Provavelmente, ele se perdeu no caminho.
O erro não está nos modelos de IA. Está na forma como os testamos.
O Buraco nos Testes Tradicionais
Até pouco tempo, os benchmarks de agentes web eram superficiais. Focavam tarefas simples em um site só: "Faça login". "Preencha o formulário". "Clique no botão". Modelos de ponta já dominam isso. Os testes saturaram – não revelam mais nada novo.
A web real é outra história. Tarefas úteis são bagunçadas, com várias etapas e sites diferentes:
- Comparar produtos em Amazon, Walmart, Best Buy e lojas nichadas ao mesmo tempo.
- Planejar viagens complexas com voos de várias companhias, hotéis, carros e passeios em plataformas distintas.
- Juntar dados de reviews, preços e estoque de dezenas de fontes.
Isso exige contexto longo, raciocínio entre sites e foco por horas. Nada a ver com tarefas curtas e isoladas.
Apresento o Odysseys.
Odysseys: Testes que Imitam a Vida Real
Pesquisadores da Carnegie Mellon criaram o Odysseys – 200 tarefas longas baseadas em sessões reais de navegação na internet ao vivo. Sem sites falsos ou labs controlados. É a web de verdade, com falhas reais.
Os números? Preocupantes. O melhor modelo de ponta acertou só 44,5% das tarefas perfeitamente. Ou seja, mais da metade falhou ou ficou pela metade.
E avaliar sucesso em tarefas longas é mais complicado do que parece.
Passou ou Reprovou? Essa Métrica Não Basta
Pense nisso: agente planeja viagem de três dias ao Japão. Reserva voos, hotel e três atrações. Mas esquece o restaurante que você pediu. Sucesso ou fracasso?
Benchmarks antigos forçam um sim ou não. Na prática, foi um acerto parcial. O Odysseys usa avaliação por rubrica – divide tarefas em checkpoints independentes, com notas parciais e critérios claros. Isso alinha melhor com juízes humanos do que pedir a uma IA para "avaliar tudo".
Diferença crucial.
O Problema da Eficiência que Ninguém Viu Chegar
Sucesso é só parte da equação. Mesmo quando acertam, os agentes desperdiçam passos.
O Odysseys mede eficiência de trajetória – progresso na rubrica por ação no navegador. Tipo "retorno por esforço computacional".
Resultado: só 1,15% nos melhores agentes. Eles dão voltas, repetem buscas, se distraem e gastam milhares de passos onde humanos usariam 50. Cada passo carrega páginas, espera JavaScript e lida com sites complicados. Para uso real, inviável.
O Que os Dados Revelam de Verdade
Testaram oito modelos de ponta e open-weight. Gráfico de acertos por "orçamento de passos" mostra curvas sigmoides: zero nos primeiros 15 passos, pico entre 20-70, platô após 80.
Modelos pagos sobem mais rápido e alto que os grátis. Mas nenhum chega perto de 100%. Espaço enorme para melhorar – ou falhar.
Impacto no Mercado
Se você desenvolve produtos com agentes web – e cada vez mais empresas fazem –, Odysseys é um alerta.
Para fundadores e devs: Não conte com agentes para fluxos complexos ainda. Simplifique tarefas ou adicione humanos no loop.
Para pesquisadores de IA: Fim das vitórias fáceis. Agora é hora de contexto duradouro, planejamento multi-site e navegação esperta.
Para provedores de infra (como nós na NameOcean): Faz pensar em serviços web acessíveis por IA. Como tornar DNS, SSL e APIs mais amigáveis a agentes? Hosting e descoberta de serviços precisam evoluir para contextos cross-domain.
Lição Principal
Agentes web não substituem humanos em tarefas complicadas. Mas avançam. Odysseys mede progresso real – não só ganhos em problemas bobos, mas em desafios úteis.
Não é "se" a IA vai resolver. É "quando". Para quem constrói hoje, isso muda tudo.
O benchmark está online, com tarefas, rubricas e vídeos das tentativas. Vale conferir se você mexe com agentes web. Pode explicar por que o seu ainda patina.