Web Agents am Limit: Warum KI im echten Web-Browsing noch scheitert

Apr 29, 2026 ai web-agents benchmarking machine-learning automation long-horizon-tasks frontier-models

Web Agents stoßen an Grenzen: Warum KI beim echten Surfen noch scheitert

AI hat Schach und Go gemeistert. Jeder Erfolg ließ uns hoffen, die allgemeine Intelligenz sei nah. Doch wehe, du lässt einen Web-Agenten eine echte Aufgabe lösen – Flug buchen, Preise bei mehreren Händlern abgleichen oder eine Reise mit Umstiegen planen. Meistens verirrt er sich.

Schuld sind nicht die Modelle. Wir haben sie einfach mit den falschen Tests geprüft.

Der Riss in den Tests, den niemand sah

Bisherige Benchmarks für Web Agents waren zu harmlos. Sie prüften einfache Aufgaben auf einer Seite: Einloggen. Formular ausfüllen. Knopf klicken. Top-Modelle meistern das locker. Die Scores sind durch die Decke – mehr sagt das nicht aus.

Im echten Leben sieht's anders aus. Nützliche Tasks sind kompliziert, dauern lange und springen zwischen Sites:

Produkte bei Konkurrenz vergleichen (Amazon, MediaMarkt, Otto und Nischen-Shops parallel durchsuchen)
Reisen organisieren (Flüge bei Airlines checken, Hotels buchen, Mietwagen und Ausflüge auf verschiedenen Portalen)
Daten bündeln (Bewertungen, Preise und Verfügbarkeit aus vielen Quellen zusammenfassen)

Dafür braucht's Ausdauer, Logik über Sites hinweg und Fokus stundenlang. Genau das Gegenteil von kurzen, einfachen Tests.

Da kommt Odysseys ins Spiel.

Odysseys: Ein Benchmark aus der Praxis

Forscher der Carnegie Mellon University haben Odysseys entwickelt – 200 lange Web-Aufgaben aus echten Browserverläufen. Getestet live im Internet, mit realen Sites und all ihren Macken. Kein Fake-Setup.

Ergebnis? Ernüchternd. Das beste Modell schaffte nur 44,5 % perfekte Erfolge. Über die Hälfte der Tasks ging in die Hose.

Und selbst "Erfolg" zu messen, ist knifflig.

Pass oder Fail reicht nicht mehr

Stell dir vor: Der Agent plant eine Japan-Reise für drei Tage. Er bucht Flüge, Hotel und drei Attraktionen. Vergisst aber das eine Restaurant, das du wolltest. Erfolg oder Misserfolg?

Alte Benchmarks zwingen zu Ja/Nein. Odysseys nutzt Rubrik-Bewertung: Jede Aufgabe zerlegt in kleine, unabhängige Checkpoints. Skala statt Schwarz-Weiß. Das passt besser zu menschlichen Einschätzungen als vage "LLM als Richter"-Methoden.

Das macht einen Riesenunterschied.

Der Effizienz-Fail, den niemand kommen sah

Erfolg allein zählt nicht. Selbst bei Treffern sind die Agents unglaublich ineffizient.

Odysseys misst Trajectory Efficiency: Wie viel Fortschritt pro Schritt? Quasi "Ertrag pro Rechenaufwand".

Fazit: Top-Modelle kommen auf magere 1,15 %. Sie drehen Kreise, prüfen Bekanntes neu, verlieren sich in Sackgassen. Ein Mensch schafft das in 50 Schritten, der Agent braucht 1.000. Jeder Schritt kostet: Seite laden, JavaScript warten, Strukturen navigieren. Für den Alltag fatal.

Was die Zahlen wirklich verraten

Acht Modelle – frontier und open-weight – wurden getestet. Grafik von Erfolgsrate gegen "Step Budget" (erlaubte Browser-Aktionen): Alle zeigen eine S-Kurve. Null Erfolg bis Schritt 15. Sprung bei 20-70. Danach Plattform bei 80+.

API-Frontier-Modelle klettern steiler. Aber keiner knackt 100 %. Potenzial – oder Schwachstelle – ist riesig.

Warum das die Branche aufmischt

Wer auf Web Agents setzt – und das tun immer mehr Firmen –, kriegt mit Odysseys die kalte Dusche.

Für Gründer und Product Manager: Komplexe, mehrstufige Tasks? Noch nicht agent-tauglich. Vereinfacht oder mit Mensch drinhalten.

Für AI-Forscher: Leichte Siege sind passé. Nächstes Level: Langer Atem, Multi-Site-Logik, besseres Planen und Navigieren.

Für Infra-Anbieter (wie uns bei NameOcean): Macht uns nachdenklich. Wenn Agents bei Domains und Cross-Site-Reasoning stolpern, wie bauen wir agent-freundliche Services? DNS, SSL, APIs und Hosting so gestalten, dass Integration klappt?

Der Kernpunkt

Web Agents ersetzen uns bei kniffligen Jobs nicht. Aber sie entwickeln sich. Odysseys misst echten Fortschritt – nicht nur Tweaks an Simple-Tasks, sondern Meilensteine für reale Arbeit.

Wann kommt der Durchbruch? Für Teams, die heute bauen, ist das entscheidend.

Der Benchmark ist online: Tasks, Rubriken, Videos der Läufe. Schaut rein. Zeigt vielleicht, warum euer Agent hakt.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DA ZH-HANS EN