Web Agent addio: perché l'IA inciampa ancora sul web reale

Web Agent addio: perché l'IA inciampa ancora sul web reale

Apr 29, 2026 ai web-agents benchmarking machine-learning automation long-horizon-tasks frontier-models

Gli Agenti Web AI Hanno Incontrato il Loro Giudice: Perché Faticano Ancora con la Navigazione Reale

Tutti ricordiamo quando l'AI ha surclassato gli umani a scacchi. Poi a Go. Ogni record sembrava un passo verso l'intelligenza generale. Ma se hai provato un agente AI per compiti veri – tipo prenotare un volo, confrontare prezzi su vari negozi o organizzare un viaggio complicato – sai bene: si perdono.

Il guaio non sta nei modelli. Sta nei test che usiamo.

Il Vuoto nei Benchmark che Nessuno Notava

Fino a poco fa, i benchmark per agenti web erano... generosi. Poche azioni su un solo sito: "Accedi qui". "Compila il form". "Clicca quel tasto". I top model li polverizzano. Sono saturi, non dicono più nulla.

La realtà è diversa. I compiti utili sono caotici, multi-fase, tosti:

  • Confronti tra negozi rivali (Amazon, Walmart, Best Buy, più siti specializzati in parallelo)
  • Pianificazioni di viaggi intricati (voli su più compagnie, hotel, auto, attrazioni su piattaforme sparse)
  • Sintesi di dati (recensioni, prezzi, stock da miriadi di fonti)

Servono contesto duraturo, ragionamento tra siti, focus per ore. Altro che task brevi su un sito solo.

Ecco Odysseys.

Odysseys: Il Benchmark che Specchia il Mondo Vero

Ricercatori di Carnegie Mellon hanno lanciato Odysseys: 200 task lunghi, presi da sessioni di browsing reali, su Internet live. Niente siti finti in lab. Solo complessità autentica, con tutti i guai veri.

Risultati? Durissimi. Il modello più forte ha centrato il 44,5% di successi perfetti. Ovvero, oltre la metà dei flussi realistici fallisce o resta incompleta.

E misurare il "successo" su task lunghi è già un'impresa.

Pass/Fail Non Basta Più

Pensa a un agente che pianifica tre giorni in Giappone. Prenota voli, hotel, tre attrazioni. Ma salta quel ristorante che avevi chiesto. Successo o no?

Con i vecchi criteri, sì o no. Punto. Ma ha risolto in parte. I benchmark classici ignorano queste sfumature.

Odysseys usa valutazione a rubriche: suddivide ogni task in checkpoint verificabili singolarmente. Non binario, ma scala graduata con criteri precisi. Meglio allineata al giudizio umano rispetto ai soliti "LLM che giudicano traiettorie intere".

Conta eccome.

L'Inefficienza che Ha Sorpreso Tutti

Non basta il tasso di successo. Anche i vincitori sono lenti da matti.

Odysseys misura efficienza di traiettoria: progresso per step. Quanto rubric score per azione.

Risultato: top agent al 1,15%. Deviano, si distraono, ricontrollano l'ovvio, sprecano passi come se pagassero a clic. Per usi reali, disastro. Se un umano fa in 50 step quel che l'AI impiega in 1000 – caricando pagine, aspettando JS, navigando labirinti – i costi esplodono.

Cosa Dicono i Dati Veri

Testati otto model top, closed e open. Grafico di completamento perfetto vs "budget step" (azioni browser prima di mollare): curva sigmoide per tutti.

Zero performance nei primi 15 step. Salita ripida tra 20-70. Dopo 80, plateau. I closed API salgono più veloci e alti degli open. Ma nessuno sfonda. Tanto margine – o tanto rischio di flop.

Perché Conta per il Settore

Se sviluppi prodotti con agenti web – e lo fanno in tanti – Odysseys è uno schiaffo.

Fondatori e product manager: Niente affidamento su workflow multi-step complessi. Simplify o metti umani in mezzo.

Ricercatori AI: Fine dei facili. Ora long-horizon, multi-site. Servono contesto solido, planning top, navigazione furba.

Provider di infra (come noi da NameOcean): Domande aperte su servizi web. Se gli agent arrancano tra domain e contesti cross-site, come ottimizzare API e hosting per loro? DNS, SSL, discovery "agent-ready"?

Il Vero Messaggio

Gli agenti web non sostituiscono l'umano sui task duri. Ma evolvono. Odysseys misura進展 reali – non ritocchi su roba facile, ma salti veri per roba utile.

Non è "se" l'AI ce la farà. È "quando". Per chi ci lavora ora, fa tutta la differenza.

Il benchmark è online: task, rubriche, video delle prove. Se usi agenti web, guarda. Spiega i tuoi guai attuali.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL HU FR ES DE DA ZH-HANS EN