Webagenter har träffat sin överman: Därför kämpar dagens AI med verklig webbsurf
Webagenter har mött sin överman: Varför AI kämpar med verklig webbsurfning
AI har slagit människor i schack och Go. Varje seger lovade steg mot superintelligens. Men testa en webagent på något praktiskt – som att boka flyg, jämföra priser på flera sajter eller planera en resa med flera stopp. De tappar tråden direkt.
Felet ligger inte i modellerna. Vi har testat dem fel sätt.
Benchmarks som inte speglar verkligheten
Tidigare tester för webagenter har varit för snälla. De handlar om enkla uppgifter på en sajt: logga in, fyll i formulär, klicka knapp. Toppmodellerna klarar dem galant. Benchmarksen är mättade – de säger ingenting nytt.
Verkliga uppgifter är annorlunda. De är röriga, flerstegs och krävande:
- Jämföra produkter på Amazon, Walmart, Best Buy och nischsajter samtidigt.
- Planera resor med flyg, hotell, hyrbilar och sevärdheter från olika plattformar.
- Samla info från recensioner, priser och lager på tiotals källor.
Det här kräver långsiktig kontext, resonemang över sajter och fokus i timmar. Inte korta, enkla tester.
Då kom Odysseys.
Odysseys: Ett benchmark från riktiga sessioner
Forskare från Carnegie Mellon skapade Odysseys – 200 långa webuppgifter baserade på verkliga surfpass och testade på live-webben. Inga fejkade sajter. Ren verklighet med alla fallgropar.
Resultaten? Besvikande. Bästa modellen nådde 44,5% fullständig framgång. Nästan hälften misslyckades helt.
Men att mäta framgång är knepigare än så.
Pass/fail räcker inte längre
Tänk dig: Agenten ska planera tre dagar i Japan. Den bokar flyg, hotell och tre sevärdheter. Men glömmer den restaurang du bad om. Framgång eller misslyckande?
Vanliga tester tvingar till svartvitt. Odysseys använder rubric-baserad utvärdering. Varje uppgift bryts i små, verifierbara punkter. Poäng för partiella framsteg. Det stämmer bättre med människors bedömning än LLM-domare som bara tittar på hela processen.
Skillnaden är enorm.
Effektivitet – den stora stöten
Framgång räcker inte. Även vid lyckade uppgifter är agenterna slösaktiga.
Odysseys mäter Trajectory Efficiency – framsteg per steg. Hur mycket poäng per klick?
Svaret: Bara 1,15% för toppmodellerna.
De tar onödiga omvägar, dubbelkollar, fastnar. Tusen steg för vad en människa gör på 50. Varje steg laddar sidor, väntar på JavaScript, navigerar labyrinter. För riktiga produkter blir det ohållbart kostnadsmässigt.
Vad datan avslöjar
Testet körde åtta modeller, frontier och open-weight. Plot mot "step budget" visar sigmoidkurva: Noll framsteg första 15 stegen. Brant klättring 20–70. Platt efter 80.
API-modeller presterar bättre än open-source. Men ingen når nära topp. Stor potential – eller stora brister.
Varför det påverkar alla
Odysseys är en väckarklocka för dig som bygger på webagenter.
Grundare och produktfolk: Glöm komplexa flöden. Enklare uppgifter eller mänsklig koll tills vidare.
AI-forskare: Lätta vinster är slut. Nästa steg: bättre kontext, planering och navigation över sajter.
Infrastruktur-leverantörer (som vi på NameOcean): Hur gör vi tjänster agent-vänliga? APIs, DNS, SSL och hosting som underlättar cross-site-resonemang och service discovery.
Slutsatsen
Webagenter ersätter inte människor på svåra uppgifter än. Men de utvecklas. Odysseys ger ärliga mått – inte bara småfix på enkla problem, utan framsteg på det som räknas.
Frågan är inte om. När? För dig som bygger nu spelar det roll.
Benchmarket är öppet med uppgifter, rubrics och videor. Kolla det om dina agenter krånglar. Det förklarar varför.