Web Agents krijgen klappen: waarom AI nog faalt bij écht browsen

Web Agents krijgen klappen: waarom AI nog faalt bij écht browsen

Apr 29, 2026 ai web-agents benchmarking machine-learning automation long-horizon-tasks frontier-models

Web Agents Komen Nog Lang Niet in de Buurt van Echt Browsen

AI-agenten die het web moeten bedwingen klinken ideaal. Ze winnen van ons in spelletjes als schaken of Go. Maar probeer er eens een in te zetten voor iets praktisch, zoals een vlucht boeken, spullen vergelijken bij meerdere winkels of een reis met meerdere stops plannen. Vaak haperen ze halverwege.

Het zit niet in de modellen zelf. We testen ze gewoon op de verkeerde manier.

Benchmarks Die de Realiteit Niet Raken

Tot voor kort draaiden tests voor web agents vooral om simpele klusjes op één site. Inloggen, een formulier invullen, een knop aantikken. Topmodellen scoren daar al bijna perfect. Die benchmarks zijn uitgekauwd.

In de echte wereld gaat het anders. Nuttige taken zijn rommelig, met meerdere stappen en sites:

  • Producten vergelijken bij Amazon, Bol.com, Coolblue en nichewinkels tegelijk.
  • Reizen uitstippelen met vluchten bij KLM en Ryanair, hotels via Booking, auto's bij Sunny Cars en bezienswaardigheden verspreid.
  • Info bijeenrapen uit reviews, prijzen en voorraden op tientallen plekken.

Daar heb je langdurige focus, slimme overstappen tussen sites en uithoudingsvermogen voor voorbeelden van urenlang browsen nodig. Helemaal niet zoals die korte testjes.

Daarom komt Odysseys.

Odysseys: Eindelijk een Echte Test

Onderzoekers van Carnegie Mellon University lanceerden Odysseys. Dat zijn 200 lange webtaken, gebaseerd op echte browse-sessies en getest op het levende internet. Geen neppe sites in een lab, maar puur de praktijk met al haar fouten.

De uitslag? Teleurstellend. Het beste model haalde maar 44,5% volledig succes. Dus meer dan de helft van zulke realistische klussen mislukte.

En zelfs succes meten blijkt lastiger dan gedacht.

Pass/Fail Volstaat Niet Meer

Stel: een agent plant een driedaagse trip naar Japan. Hij boekt vluchten, vindt een hotel en drie bezienswaardigheden. Maar hij slaat dat ene restaurant over dat je vroeg. Succes of flop?

Oude tests dwingen tot zwart-wit. Terwijl er grijze zones zijn. Odysseys gebruikt rubric-scoring: taken hakken in kleine, onafhankelijke checkpoints. Geen ja/nee, maar een schaal met meetbare stappen. Dat komt beter overeen met wat mensen beoordelen dan die vage LLM-judges.

Zo'n nuance maakt verschil.

De Verborgen Kost: Te Veel Stappen

Nog een eye-opener: succes alleen zegt niet alles. Zelfs bij slagen zijn agents supersloom.

Odysseys meet Trajectory Efficiency: hoeveel vooruitgang per stap. Oftewel, rendement per actie.

Uitslag: topmodellen halen amper 1,15%. Ze dwalen uit, checken dubbel, laden onnodig pagina's. Mens doet het in 50 stappen, agent heeft er 1000 nodig. Met JavaScript-wachttijden en lastige site-structuren wordt dat onbetaalbaar.

Wat Zegt de Data Precies?

Ze testten acht topmodellen, met een 'step budget' als limiet. Grafieken tonen een S-curve: nul succes tot stap 15, dan piek tussen 20-70, daarna plateau rond stap 80.

Gesloten API-modellen doen het beter dan open-source. Maar geen enkel haalt 100%. Ruimte voor verbetering – of falen – is enorm.

Waarom Dit de Sector Raakt

Als je bouwt met web agents, is Odysseys een wake-upcall.

Voor makers en startups: Complexe workflows? Nog niet betrouwbaar. Vereenvoudig of voeg menselijke check toe.

Voor AI-onderzoekers: Simpele taken zijn passé. Focus op lange taken, multi-site redeneren, betere planning en navigatie.

Voor hosting-aanbieders (zoals wij bij NameOcean): Tijd om na te denken over agent-vriendelijke infra. Hoe maken we DNS, SSL en APIs makkelijker voor AI? Welke domein- en hosting-setups helpen bij cross-site context?

De Kernboodschap

Web agents vervangen ons nog niet bij ingewikkelde browses. Maar ze evolueren. Odysseys meet echte vooruitgang, niet alleen op makkelijke testjes.

De vraag is niet óf, maar wanneer. Voor wie nu bouwt, telt dat timing.

De benchmark staat online, met tasks, rubrics en video's. Check het als je met agents werkt. Legt bloot waarom jouw setup hapert.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB HU IT FR ES DE DA ZH-HANS EN