Web Agentek ellenfele: miért bukdácsol még az AI a valódi böngészésben?

Ápr 29, 2026 ai web-agents benchmarking machine-learning automation long-horizon-tasks frontier-models

Webes AI-ügynökök ellenfele: Miért küszködnek még mindig a valódi böngészéssel?

Emlékszel, amikor az AI legyőzte az embert a sakkban, aztán a Go-ban? Minden siker azt sugallta, hogy közeledünk az általános intelligenciához. De ha kipróbáltál már webes AI-ügynököt igazi feladatra – mondjuk repjegy foglalásra, termékek összehasonlítására több boltban vagy bonyolult utazás tervezésére –, akkor tudod: gyakran elakadnak.

A gond nem a modellekkel van. Rosszul mérjük a teljesítményüket.

A benchmark-ek optimista világa

Eddig a tesztek egyszerűek voltak. Egy oldalon, pár perc alatt: "Lépj be ide", "Töltsd ki ezt az űrlapot", "Kattints arra a gombra". A legjobb modellek ezeket már simán teljesítik. A benchmark-ek telítettek, nem mondanak újat.

A valóság más. Hasznos feladatoknál kaotikus, több lépéses kihívások jönnek:

Termékek összehasonlítása több webshopban (Amazon, Walmart, Best Buy, szakboltok egyszerre)
Bonyolult utak tervezése (repülőjegyek, hotelek, autókölcsönzés, látnivalók különböző oldalakon)
Adatok összesítése (vélemények, árak, elérhetőség tucatnyi forrásból)

Ehhez kell tartós figyelem, oldalak közötti gondolkodás és órákig kitartó fókusz. Ez pont az ellenkezője a rövid, egysávos teszteknek.

Íme az Odysseys.

Odysseys: Végre valósághű benchmark

A Carnegie Mellon kutatói megalkották az Odysseyst: 200 hosszú feladat, igazi böngészési munkamenetekből gyűjtve, élő neten tesztelve. Nem mock oldalak, hanem valódi weboldalak, bonyolultsággal és hibalehetőségekkel.

Eredmény? Megdöbbentő. A legerősebb modellek 44,5%-os tökéletes sikert hoztak. Tehát minden második-realista feladat elbukott vagy félbeszakadt.

Ráadásul a siker mérését is újra kell gondolni.

Pass/fail már nem elég

Képzeld el: háromnapos japán utat kell tervezni. Az AI foglal repjegyet, hotelt, három látnivalót – de kihagyja a kért éttermet. Siker vagy kudarc?

A hagyományos pass/fail erre nem jó. Az Odysseys rubric-alapú értékelést hozott: minden feladatot részekre bont, önálló ellenőrzőpontokkal. Skálán pontoz, részleges haladást is mér. Ez jobban egyezik az emberi ítélettel, mint az LLM-ek "na, mit szólsz ehhez?" módszere.

Ez kulcsfontosságú különbség.

A hatékonyság rejtett gondja

Nem csak a siker számít. Még ha teljesítenek is, borzasztóan pazarlók.

Az Odysseys Trajectory Efficiency metrikát vezetett be: mennyi haladás jön lépésenként. Mint a "hatékonyság computational buckért".

Eredmény: legjobb modellek is csak 1,15%-os hatékonyságot értek el.

Mit jelent? Hosszú kitérők, felesleges ellenőrzések, oldalrakelések. Ha ember 50 lépéssel megcsinálja, amit ők 1000-ből, az drága. Oldalbetöltés, JS-renderelés, bonyolult navigáció mind lépésenként időt és pénzt emészt fel.

Mit mutatnak pontosan az adatok

Nyolc top modellt teszteltek. Sikert "lépéskeret" ellen grafikonon: mind sigmoiód görbe.

Első 15 lépésben nulla. 20-70 között ugrás. 80 után lelassul, plafon közel.

API-modellek meredekebbek, magasabbra jutnak, mint open-weight-ek. De egyik sem közelít 100%-hoz. Nagy a tér fejlődésre – vagy bukásra.

Miért fontos ez a világnak?

Ha webes AI-ügynökökre építesz terméket – és egyre többen teszik –, ez ébresztő.

Alapítóknak, termékfelelősöknek: Ne számíts teljes megbízhatóságra összetett munkafolyamatokban. Egyszerűsíts vagy tegyél mellé embert.

AI-kutatóknak: Vége a könnyű sikereknek. Hosszú távú, többoldalas gondolkodás a következő nagy kihívás. Jobb kontextuskezelés, tervezés, navigáció kell.

Infrastruktúra-szolgáltatóknak (mint mi a NameOcean-nél): Felveti, hogyan tegyük agent-barátabbá a szolgáltatásokat. Ha küszködnek domain-ek közötti logikával, hogyan strukturáljuk az API-kat, hostingot? Milyen DNS, SSL, szolgáltatásfelfedezés legyen agent-kompatibilis?

A lényeg röviden

Webes AI-ügynökök még nem helyettesítik az embert összetett feladatokban. De fejlődnek. Az Odysseys méri a valódi előrelépést – nem csak egyszerű teszteken, hanem azon, ami számít.

Nem kérdés, hogy megoldják-e később. Hanem mikor. Ma építőknek ez döntő.

A benchmark élő: feladatok, rubrics-ok, videók az agent-kísérletekből. Ha dolgozol ilyennel, nézd meg. Lehet, kiderül, miért akad el a tied.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL IT FR ES DE DA ZH-HANS EN