Web Agents krijgen klappen: waarom AI nog faalt bij écht browsen
Web Agents Komen Nog Lang Niet in de Buurt van Echt Browsen
AI-agenten die het web moeten bedwingen klinken ideaal. Ze winnen van ons in spelletjes als schaken of Go. Maar probeer er eens een in te zetten voor iets praktisch, zoals een vlucht boeken, spullen vergelijken bij meerdere winkels of een reis met meerdere stops plannen. Vaak haperen ze halverwege.
Het zit niet in de modellen zelf. We testen ze gewoon op de verkeerde manier.
Benchmarks Die de Realiteit Niet Raken
Tot voor kort draaiden tests voor web agents vooral om simpele klusjes op één site. Inloggen, een formulier invullen, een knop aantikken. Topmodellen scoren daar al bijna perfect. Die benchmarks zijn uitgekauwd.
In de echte wereld gaat het anders. Nuttige taken zijn rommelig, met meerdere stappen en sites:
- Producten vergelijken bij Amazon, Bol.com, Coolblue en nichewinkels tegelijk.
- Reizen uitstippelen met vluchten bij KLM en Ryanair, hotels via Booking, auto's bij Sunny Cars en bezienswaardigheden verspreid.
- Info bijeenrapen uit reviews, prijzen en voorraden op tientallen plekken.
Daar heb je langdurige focus, slimme overstappen tussen sites en uithoudingsvermogen voor voorbeelden van urenlang browsen nodig. Helemaal niet zoals die korte testjes.
Daarom komt Odysseys.
Odysseys: Eindelijk een Echte Test
Onderzoekers van Carnegie Mellon University lanceerden Odysseys. Dat zijn 200 lange webtaken, gebaseerd op echte browse-sessies en getest op het levende internet. Geen neppe sites in een lab, maar puur de praktijk met al haar fouten.
De uitslag? Teleurstellend. Het beste model haalde maar 44,5% volledig succes. Dus meer dan de helft van zulke realistische klussen mislukte.
En zelfs succes meten blijkt lastiger dan gedacht.
Pass/Fail Volstaat Niet Meer
Stel: een agent plant een driedaagse trip naar Japan. Hij boekt vluchten, vindt een hotel en drie bezienswaardigheden. Maar hij slaat dat ene restaurant over dat je vroeg. Succes of flop?
Oude tests dwingen tot zwart-wit. Terwijl er grijze zones zijn. Odysseys gebruikt rubric-scoring: taken hakken in kleine, onafhankelijke checkpoints. Geen ja/nee, maar een schaal met meetbare stappen. Dat komt beter overeen met wat mensen beoordelen dan die vage LLM-judges.
Zo'n nuance maakt verschil.
De Verborgen Kost: Te Veel Stappen
Nog een eye-opener: succes alleen zegt niet alles. Zelfs bij slagen zijn agents supersloom.
Odysseys meet Trajectory Efficiency: hoeveel vooruitgang per stap. Oftewel, rendement per actie.
Uitslag: topmodellen halen amper 1,15%. Ze dwalen uit, checken dubbel, laden onnodig pagina's. Mens doet het in 50 stappen, agent heeft er 1000 nodig. Met JavaScript-wachttijden en lastige site-structuren wordt dat onbetaalbaar.
Wat Zegt de Data Precies?
Ze testten acht topmodellen, met een 'step budget' als limiet. Grafieken tonen een S-curve: nul succes tot stap 15, dan piek tussen 20-70, daarna plateau rond stap 80.
Gesloten API-modellen doen het beter dan open-source. Maar geen enkel haalt 100%. Ruimte voor verbetering – of falen – is enorm.
Waarom Dit de Sector Raakt
Als je bouwt met web agents, is Odysseys een wake-upcall.
Voor makers en startups: Complexe workflows? Nog niet betrouwbaar. Vereenvoudig of voeg menselijke check toe.
Voor AI-onderzoekers: Simpele taken zijn passé. Focus op lange taken, multi-site redeneren, betere planning en navigatie.
Voor hosting-aanbieders (zoals wij bij NameOcean): Tijd om na te denken over agent-vriendelijke infra. Hoe maken we DNS, SSL en APIs makkelijker voor AI? Welke domein- en hosting-setups helpen bij cross-site context?
De Kernboodschap
Web agents vervangen ons nog niet bij ingewikkelde browses. Maar ze evolueren. Odysseys meet echte vooruitgang, niet alleen op makkelijke testjes.
De vraag is niet óf, maar wanneer. Voor wie nu bouwt, telt dat timing.
De benchmark staat online, met tasks, rubrics en video's. Check het als je met agents werkt. Legt bloot waarom jouw setup hapert.