Web Agentek ellenfele: miért bukdácsol még az AI a valódi böngészésben?

Web Agentek ellenfele: miért bukdácsol még az AI a valódi böngészésben?

Ápr 29, 2026 ai web-agents benchmarking machine-learning automation long-horizon-tasks frontier-models

Webes AI-ügynökök ellenfele: Miért küszködnek még mindig a valódi böngészéssel?

Emlékszel, amikor az AI legyőzte az embert a sakkban, aztán a Go-ban? Minden siker azt sugallta, hogy közeledünk az általános intelligenciához. De ha kipróbáltál már webes AI-ügynököt igazi feladatra – mondjuk repjegy foglalásra, termékek összehasonlítására több boltban vagy bonyolult utazás tervezésére –, akkor tudod: gyakran elakadnak.

A gond nem a modellekkel van. Rosszul mérjük a teljesítményüket.

A benchmark-ek optimista világa

Eddig a tesztek egyszerűek voltak. Egy oldalon, pár perc alatt: "Lépj be ide", "Töltsd ki ezt az űrlapot", "Kattints arra a gombra". A legjobb modellek ezeket már simán teljesítik. A benchmark-ek telítettek, nem mondanak újat.

A valóság más. Hasznos feladatoknál kaotikus, több lépéses kihívások jönnek:

  • Termékek összehasonlítása több webshopban (Amazon, Walmart, Best Buy, szakboltok egyszerre)
  • Bonyolult utak tervezése (repülőjegyek, hotelek, autókölcsönzés, látnivalók különböző oldalakon)
  • Adatok összesítése (vélemények, árak, elérhetőség tucatnyi forrásból)

Ehhez kell tartós figyelem, oldalak közötti gondolkodás és órákig kitartó fókusz. Ez pont az ellenkezője a rövid, egysávos teszteknek.

Íme az Odysseys.

Odysseys: Végre valósághű benchmark

A Carnegie Mellon kutatói megalkották az Odysseyst: 200 hosszú feladat, igazi böngészési munkamenetekből gyűjtve, élő neten tesztelve. Nem mock oldalak, hanem valódi weboldalak, bonyolultsággal és hibalehetőségekkel.

Eredmény? Megdöbbentő. A legerősebb modellek 44,5%-os tökéletes sikert hoztak. Tehát minden második-realista feladat elbukott vagy félbeszakadt.

Ráadásul a siker mérését is újra kell gondolni.

Pass/fail már nem elég

Képzeld el: háromnapos japán utat kell tervezni. Az AI foglal repjegyet, hotelt, három látnivalót – de kihagyja a kért éttermet. Siker vagy kudarc?

A hagyományos pass/fail erre nem jó. Az Odysseys rubric-alapú értékelést hozott: minden feladatot részekre bont, önálló ellenőrzőpontokkal. Skálán pontoz, részleges haladást is mér. Ez jobban egyezik az emberi ítélettel, mint az LLM-ek "na, mit szólsz ehhez?" módszere.

Ez kulcsfontosságú különbség.

A hatékonyság rejtett gondja

Nem csak a siker számít. Még ha teljesítenek is, borzasztóan pazarlók.

Az Odysseys Trajectory Efficiency metrikát vezetett be: mennyi haladás jön lépésenként. Mint a "hatékonyság computational buckért".

Eredmény: legjobb modellek is csak 1,15%-os hatékonyságot értek el.

Mit jelent? Hosszú kitérők, felesleges ellenőrzések, oldalrakelések. Ha ember 50 lépéssel megcsinálja, amit ők 1000-ből, az drága. Oldalbetöltés, JS-renderelés, bonyolult navigáció mind lépésenként időt és pénzt emészt fel.

Mit mutatnak pontosan az adatok

Nyolc top modellt teszteltek. Sikert "lépéskeret" ellen grafikonon: mind sigmoiód görbe.

Első 15 lépésben nulla. 20-70 között ugrás. 80 után lelassul, plafon közel.

API-modellek meredekebbek, magasabbra jutnak, mint open-weight-ek. De egyik sem közelít 100%-hoz. Nagy a tér fejlődésre – vagy bukásra.

Miért fontos ez a világnak?

Ha webes AI-ügynökökre építesz terméket – és egyre többen teszik –, ez ébresztő.

Alapítóknak, termékfelelősöknek: Ne számíts teljes megbízhatóságra összetett munkafolyamatokban. Egyszerűsíts vagy tegyél mellé embert.

AI-kutatóknak: Vége a könnyű sikereknek. Hosszú távú, többoldalas gondolkodás a következő nagy kihívás. Jobb kontextuskezelés, tervezés, navigáció kell.

Infrastruktúra-szolgáltatóknak (mint mi a NameOcean-nél): Felveti, hogyan tegyük agent-barátabbá a szolgáltatásokat. Ha küszködnek domain-ek közötti logikával, hogyan strukturáljuk az API-kat, hostingot? Milyen DNS, SSL, szolgáltatásfelfedezés legyen agent-kompatibilis?

A lényeg röviden

Webes AI-ügynökök még nem helyettesítik az embert összetett feladatokban. De fejlődnek. Az Odysseys méri a valódi előrelépést – nem csak egyszerű teszteken, hanem azon, ami számít.

Nem kérdés, hogy megoldják-e később. Hanem mikor. Ma építőknek ez döntő.

A benchmark élő: feladatok, rubrics-ok, videók az agent-kísérletekből. Ha dolgozol ilyennel, nézd meg. Lehet, kiderül, miért akad el a tied.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL IT FR ES DE DA ZH-HANS EN