Webagenter møter sin overmann: Hvorfor dagens AI sliter med ekte nettlesing
Webagenter møter veggen: Hvorfor dagens AI sliter med ekte nettbruk
AI har knust oss i sjakk og Go. Hver seier virket som et steg mot superintelligens. Men prøv en webagent for noe praktisk – som å booke fly, sammenligne priser på tvers av butikker eller planlegge en reise med flere stopp. Da går det fort galt.
Feilen ligger ikke i modellene. Vi har testet dem feil helt til nå.
Benchmarks som ikke matcher virkeligheten
Tidligere tester har vært enkle. Logg inn, fyll skjema, klikk knapp – alt på én side. Toppmodellene løser dette på autopilot. Benchmarks er mettet. De sier ingenting lenger.
Men ute i det virkelige nettet er oppgavene kaotiske og flertrinns:
- Sammenligne varer fra Amazon, Elkjøp, Power og nisjebutikker samtidig.
- Planlegge reiser med fly, hotell, leiebil og severdigheter på kryssende plattformer.
- Samle data fra anmeldelser, priser og lagerstatus over mange kilder.
Her kreves langvarig fokus, resonnering på tvers av sider og evne til å holde tråden i timevis. Det er det motsatte av de korte, enkle testene.
Så kom Odysseys.
Odysseys: Tester som speiler ekte bruk
Forskere fra Carnegie Mellon har laget Odysseys – 200 flertrinnsoppgaver basert på reelle browsing-sessions. Alt kjøres på live nettet, med ekte sider og feilmoduser. Ikke noe laboratorium.
Resultatene? Brutale. Beste modell klarte kun 44,5 % fullføring. Over halvparten av oppgavene feilet eller ble uferdige.
Og selv suksesmåling er tricky.
Pass/fail holder ikke lenger
Si agenten skal planlegge en Japan-tur over tre dager. Den booker fly, hotell og tre attraksjoner. Men glemmer den restauranten du ba om. Suksess eller fiasko?
Gamelige tester tvinger til svart-hvitt. Odysseys bruker rubric-basert vurdering – oppgaven deles i små, uavhengige sjekkpunkter. Gradert skala i stedet for ja/nei. Dette matcher menneskelig dom bedre enn LLM-dommere som bare får hele loggen og skal mene noe.
Dette endrer spillet.
Effektivitetskrisen som overrasket alle
Suksessrate alene er ikke nok. Selv når agentene lykkes, er de ineffektive.
Odysseys måler Trajectory Efficiency – fremgang per steg. Hvor mye rubric-poeng per handling.
Frontier-modeller når bare 1,15 % effektivitet. De tar unødvendige avstikkere, dobbeltsjekker, og sløser steg på lastetid, JavaScript og kompliserte navigasjoner. Mennesker fikser det på 50 steg. Agenten trenger 1000. Økonomien sprekker.
Hva dataene avslører
De testet åtte toppmodeller. Plotet mot "step budget" viser sigmoide kurver: Null fremgang i 15 steg. Bratt klatring 20–70 steg. Platå etter 80.
API-modeller stiger brattere enn open-weight. Men ingen når toppen. Potensial – eller svakhet – er enorm.
Hvorfor bransjen må våkne
Odysseys er en kalddusj for de som bygger på webagenter.
Gründere og produktfolk: Ikke stol på agenter for flertrinns jobb ennå. Forenkle eller legg inn menneskelig kontroll.
AI-forskere: Enkeltseierne er tatt. Neste kamp: Langsiktig resonnering på tvers av sider. Bedre kontekst, planlegging og navigasjon.
Infra-leverandører (som oss i NameOcean): Hvordan gjøre tjenester agent-vennlige? Strukturere API-er, hosting, DNS, SSL og oppdagelse for AI-navigasjon på tvers av domain?
Konklusjonen som teller
Webagenter erstatter ikke mennesker på komplekse oppgaver. Men de utvikles. Odysseys gir ekte målestokk – ikke bare små fremskritt på lette tester, men håndtering av relevant jobb.
Spørsmålet er ikke hvis, men når. For deg som bygger nå, er det avgjørende.
Benchmarket er åpent: Oppgaver, rubrics og videoer av forsøk. Sjekk det hvis agentene dine skuffer. Kanskje finner du hvor skoen trykker.