Web Agents støder på muren: Hvorfor AI stadig hinker med ægte browsing

Web Agents støder på muren: Hvorfor AI stadig hinker med ægte browsing

Apr 29, 2026 ai web-agents benchmarking machine-learning automation long-horizon-tasks frontier-models

Webagenter møder deres overmand: Hvorfor AI stadig hinker med ægte browsing

AI har knust os i skak og Go. Hver sejr fik os til at tro, at den generelle kunstig intelligens var tæt på. Men prøv at bede en webagent om at booke en flybillet, sammenligne priser på tværs af butikker eller planlægge en rejse med flere stop. De fleste gange ender det i kaos.

Fejlen ligger ikke i modellernes hjerner. Vi har bare testet dem forkert.

Benchmarks, der ikke holder til virkeligheden

Indtil nu har testerne for webagenter været for snilde. De handler ofte om korte opgaver på én side: log ind, udfyld formular, klik knap. De bedste modeller klarer det uden sved. Testerne er udtømt – de siger ikke længere noget nyt.

Men rigtig webbrug er andet. Ægte opgaver er rodede, flertrinsede og hårde:

  • Sammenligne varer på tværs af butikker (Amazon, Elgiganten, Power og nicheforhandlere på én gang)
  • Planlægge komplicerede ture (fly fra flere selskaber, hoteller, biler og seværdigheder på forskellige sider)
  • Samle data (anmeldelser, priser og lagerstatus fra utallige kilder)

Det kræver vedvarende fokus, tværsiteslogik og evne til at holde tråden over timer. Det er det modsatte af de simple, korte tests.

Her kommer Odysseys ind.

Odysseys: En benchmark fra den virkelige verden

Forskere fra Carnegie Mellon University har lavet Odysseys – 200 lange webopgaver baseret på faktiske browsing-sessioner på det levende net. Ingen kunstige lab-sider. Kun ægte websites, ægte udfordringer, ægte fejl.

Resultaterne? Dæmpende. Den stærkeste model ramte kun 44,5% perfekt succes. Altså fejlede over halvdelen af de realistiske opgaver.

Og selv at måle succes er tricky.

Pass/fail er for simpelt nu

Forestil dig: Agenten skal planlægge en tur til Japan med fly, hotel og tre seværdigheder. Den glemmer ét specifikt restaurantforslag. Er det succes eller fiasko?

Traditionelle tests tvinger til sort/hvid. I virkeligheden er det delvist løst. Odysseys bruger rubrik-baseret vurdering – opgaven deles i små, uafhængige checkpoints med klar skala. Det matcher menneskelig vurdering bedre end de sædvanlige LLM-dommere, der bare får hele historien og skal vurdere.

Den forskel er afgørende.

Effektivitetsfælden, ingen så komme

Succesrate alene er ikke nok. Selv succesfulde agenter er ekstremt sløsende.

Odysseys måler Trajectory Efficiency – hvor meget fremskridt pr. trin. Eller: bang for the buck.

Resultat: Kun 1,15% effektivitet for topmodellerne.

Det betyder enorme afstikkere, gentagne checks og spild af trin. Mennesker klarer det på 50 trin; agenter bruger 1000. Hver handling loader sider, venter på JS eller navigerer komplekse layouts. Økonomien holder ikke til praktisk brug.

Hvad dataene egentlig viser

Testen ramte otte topmodeller. Plot succes mod "step budget" (maks antagelse af browserhandlinger), og mønsteret er klart:

Alle kurver er S-formede. Nuller i de første 15 trin. Bratt stigning fra 20-70. Plat efter 80 – de rammer loftet.

API-modeller klatrer hurtigere end open-weight, men ingen når toppen. Masser af plads til forbedring – eller fiasko.

Hvad betyder det for branchen?

Hvis du bygger produkter med webagenter – og flere gør det – er Odysseys en kold bruser.

Til grundlæggere og produktfolk: Stol ikke på agenter til komplekse, flertrinsopgaver endnu. Forenkle eller tilføj menneskelig kontrol.

Til AI-forskere: De lette sejre er ovre. Fokus på langsigtede, tværsite-opgaver kræver bedre kontekst, planlægning og navigation.

Til infrastruktur-leverandører (som os hos NameOcean): Hvordan gør vi services agent-venlige? Skal DNS, SSL og hosting designes til AI-logik på tværs af domæner? Bedre APIs kunne lette integrationen.

Den ægte pointe

Webagenter er ikke klar til at erstatte mennesker i svære opgaver. Men de udvikler sig. Odysseys giver et ærligt mål på fremskridt – ikke bare små gevinster på lette tests, men håndtering af det, der tæller.

Spørgsmålet er ikke om, men hvornår. For teams, der bygger nu, er det en kæmpe forskel.

Benchmarket er online med opgaver, rubrikker og videoer af forsøg. Tjek det, hvis du arbejder med webagenter. Det kan forklare, hvorfor din løsning halter.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DE ZH-HANS EN