Les agents web ont du plomb dans l’aile : pourquoi l’IA patine encore sur le web réel
Les Agents Web IA Font Face à un Vrai Défi : Pourquoi l'IA Galère Encore sur la Navigation Réelle
L'IA a pulvérisé les humains aux échecs, puis au Go. Chaque victoire semblait nous rapprocher d'une intelligence générale. Mais essayez un agent web IA pour réserver un vol, comparer des produits sur plusieurs sites ou organiser un voyage multi-villes. Résultat ? Ça déraille souvent.
Le souci ne vient pas des modèles IA. On les évalue mal.
Le Fossé des Benchmarks qu'On Ignore
Jusqu'ici, les tests d'agents web restaient gentils. Tâches simples sur un seul site, finies en quelques minutes : "Connecte-toi", "Remplis ce formulaire", "Clique ici". Les meilleurs modèles les torpillent. Les benchmarks sont saturés, ils n'informent plus.
La vraie navigation web est autre chose. Les tâches utiles sont bordéliques, en plusieurs étapes, et dures :
- Comparer des produits sur Amazon, Walmart, Best Buy et boutiques spécialisées en parallèle.
- Préparer un voyage complexe avec vols multiples, hôtels, voitures de location et visites sur divers sites.
- Rassembler des infos comme avis, prix et stocks depuis des dizaines de sources.
Ça demande du contexte durable, du raisonnement multi-sites et de la concentration sur des heures. L'opposé des tests courts et isolés.
Voici Odysseys.
Odysseys : Un Benchmark Qui Colle à la Réalité
Des chercheurs de Carnegie Mellon ont lancé Odysseys. 200 tâches web longues, tirées de sessions de navigation réelles, testées sur le vrai Internet. Pas de sites factices en labo. De la complexité authentique, avec pannes incluses.
Les scores ? Froids. Le top model atteint 44,5 % de succès parfait. Soit 55 % d'échecs ou de résultats incomplets sur des workflows réalistes.
Pire : évaluer le "succès" sur ces tâches longues est un casse-tête.
Passé/Échoué, Ça Ne Suffit Plus
Imaginez : un agent planifie un séjour de trois jours au Japon. Il réserve vols, hôtel, trois attractions. Mais oublie le resto demandé. Succès ou échec ?
Les vieux benchmarks forcent un choix binaire. Odysseys passe à l'évaluation par grille de critères. Chaque tâche se découpe en points vérifiables séparément. On note l'avancée partielle, avec des mesures précises. Ça colle mieux aux jugements humains que les LLM-juges qui avalent une trajectoire entière et opinent.
Ça change tout.
L'Inefficacité Surprise
Les chercheurs ont vu autre chose : le taux de succès seul cache la misère. Même en cas de victoire, les agents gaspillent.
Odysseys mesure l'efficacité de trajectoire : progrès par étape. Comme du rendement par coup de calcul.
Verdict : 1,15 % max pour les meilleurs. Ils font des détours fous, se perdent, revérifient l'inutile, et claquent des étapes à fond. Pour un déploiement pro, c'est fatal. 1000 étapes pour ce qu'un humain fait en 50 ? Les coûts explosent avec chaque page chargée, JS qui rame ou navigation tordue.
Ce Que Révèlent les Données
Huit modèles frontier et open-weight testés. Graphique succès parfait vs "budget d'étapes" (actions browser avant abandon) : courbe en S pour tous.
Zéro performance jusqu'à 15 étapes. Pic entre 20 et 70. Plateau après 80. Les API frontier montent plus haut et vite que les open. Mais aucun ne frôle la perfection. Plein de marge – ou d'échecs possibles.
Pourquoi Ça Bouleverse le Secteur
Si vous montez des produits sur agents web – et ça pullule –, Odysseys sonne l'alarme.
Pour les fondateurs et PM : pas d'agents fiables sur workflows complexes multi-étapes. Simplifiez ou ajoutez de l'humain.
Pour les chercheurs IA : les gains faciles sont morts. Prochain défi : raisonnement long, multi-sites. Besoin de meilleur contexte, planification et navigation futée.
Pour les hébergeurs comme nous chez NameOcean : ça interroge nos services web. Si les agents peinent sur domaines croisés et contexte multi-sites, comment rendre APIs et infra agent-friendly ? DNS, SSL, découverte de services optimisés pour l'IA ?
La Leçon Clé
Les agents web ne remplacent pas l'humain sur tâches dures. Mais ils avancent. Odysseys mesure du vrai progrès : pas des micro-gains sur exercices faciles, mais des bonds sur du concret utile.
La question : quand ça marchera ? Pour les équipes qui buildent aujourd'hui, c'est crucial.
Le benchmark est open : tâches, grilles détaillées, vidéos d'essais. Si vous bossez agents web, checkez. Ça explique peut-être vos galères actuelles.