Web agentit saivat arvoisensa vastustajan: Miksi tekoäly kompuroi yhä nettisurfailussa

Huh 29, 2026 ai web-agents benchmarking machine-learning automation long-horizon-tasks frontier-models

Web-agentit törmäsivät todellisuuteen: Miksi AI kamppailee aitojen nettiselailutehtävien kanssa

Muistatko, kun AI voitti ihmiset shakissa? Sitten Go-pelissä? Jokainen voitto tuntui askelelta kohti älykästä tekoälyä. Mutta kokeile web-agenttia oikeaan hommaan – kuten lennon varaamiseen, tuotteiden vertailuun useilla kaupoilla tai monikaupunkiloman suunnitteluun. Tuloksena on usein harhailua.

Ongelma ei ole malleissa. Se on siinä, miten olemme testanneet niitä.

Testausvaje, josta ei puhuttu

Aiemmat web-agenttien benchmarkit ovat olleet liian helppoja. Ne keskittyvät yksinkertaisiin tehtäviin yhdellä sivustolla: kirjaudu sisään, täytä lomake, klikkaa nappia. Huippumallit ratkaisevat nämä jo nyt helposti. Testit eivät kerro enää mitään uutta.

Todellinen nettikäyttö on kuitenkin sotkuista. Tehtävät venyvät, vaativat useita sivustoja ja kestävät tunteja:

Tuotteiden vertailu kilpailevien kauppojen välillä (Amazon, Walmart, Best Buy ja erikoisliikkeet kerralla)
Monimutkaisten matkojen suunnittelu (lennot eri yhtiöiltä, hotellit, vuokra-autot ja nähtävyydet hajallaan)
Tiedon keruu (arvostelut, hinnat ja saatavuus kymmeniltä lähteiltä)

Nämä vaativat pitkäkestoista keskittymistä, sivustojen välistä päättelyä ja tarkkuutta. Ne eroavat täysin lyhyistä testitehtävistä.

Tähän asti esiteltiin Odysseys.

Odysseys: Testi, joka vastaa arkea

Carnegie Mellonin tutkijat loivat Odysseys-benchmarkin. Siinä on 200 pitkäkestoista tehtävää, poimittu oikeista selailusessioista ja testattu livenä netissä. Ei feikkisivustoja, vaan aitoa monimutkaisuutta ja vikaantumisia.

Tulokset latasivat odotuksia. Paras huippumalli onnistui täydellisesti vain 44,5 prosentissa. Yli puolet tehtävistä kaatui tai jäi puolitiehen.

Ongelma jatkuu: jopa onnistumisen mittaaminen on vaikeaa.

Miksi pelkkä onnistu/ei-onnistu ei riitä

Kuvittele: agentti suunnittelee Japanin kolmen päivän reissua. Se varaa lennot, hotellin ja kolme nähtävyyttä. Mutta unohtaa pyytämäsi ravintolavinkin. Onnistuiko se?

Perinteinen testi pakottaa valitsemaan joko tai. Todellisuudessa tehtävä hoitui osin. Odysseys korjaa tämän rubriikkipohjaisella arvioinnilla. Tehtävä jaetaan pieniin tarkistuspisteisiin, jotka pisteytetään erikseen. Tulokset vastaavat paremmin ihmisarvioita kuin LLM-tuomarit, jotka vain tuijottavat koko polkua.

Tämä ero on iso.

Tehottomuus yllätti kaikki

Onnistumisprosentti ei kerro koko totuutta. Jopa onnistuessaan agentit haaskaavat resursseja.

Odysseys toi Trajectory Efficiency -mittarin: paljonko edistystä saadaan per askel. "Tuottoa laskentateholle."

Tulos: huippumallitkin yltivät vain 1,15 prosentin tehokkuuteen.

Agentit kiertävät, toistavat tarkistuksia ja polttavat askeleita turhaan. Jos ihminen hoitaa homman 50 askeleella ja agentti tarvitsee 1000, kustannukset räjähtävät. Jokainen askel lataa sivun, odottaa JavaScriptiä tai navigoi mutkissa.

Mitä data todella paljastaa

Testissä oli kahdeksan huippu- ja avoimen painon mallia. Kun piirrettiin täydelliset onnistumiset "askelbudjetin" eli sallittujen toimien mukaan, käyrä oli samanlainen kaikilla:

Sigmoidinen muoto. Nollaa ~15 askelta. Jyrkkä nousu 20–70 välillä. Tasanne ~80 jälkeen.

API-mallit kiipeävät jyrkemmin kuin avoimet. Silti kukaan ei pääse lähelle sataprosenttia. Potkua riittää – tai epäonnistumista.

Miksi tämä kiinnostaa alaa

Jos rakennat web-agenteille tuotteita, Odysseys on herätys.

Perustajille ja kehittäjille: Monimutkaiset, monivaiheiset tehtävät eivät onnistu luotettavasti. Yksinkertaista tai lisää ihmisen valvontaa.

Tutkijoille: Helpot voitot on otettu. Nyt haetaan pitkäkestoista, sivustojen välistä päättelyä. Parempaa kontekstinhallintaa, suunnittelua ja navigointia.

Infran tarjoajille (kuten meillä NameOceanissa): Miten teemme palveluista agenttiystävällisiä? Jos AI kompuroi domainien ja sivustojen välillä, miten DNS, SSL ja hosting tukevat integraatiota paremmin?

Pääviesti

Web-agentit eivät vielä korvaa ihmistä vaikeissa tehtävissä. Kehitys etenee kuitenkin. Odysseys mittaa aitoa edistystä – ei vain pienten testien parantelua, vaan oikean työn hallintaa.

Kysymys on aikataulusta. Rakentajille se ratkaisee.

Benchmark on auki: tehtävät, rubriikit ja agenttien videot. Jos kehität web-agenteilla, tutustu. Selittää ehkä, miksi oma toteutus takkuilee.

Read in other languages:

RU BG EL CS UZ TR SV RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN