Web Agents: Γιατί οι Τρέχουσες AI Αδυνατούν στο Πραγματικό Surfing

Απρ 29, 2026 ai web-agents benchmarking machine-learning automation long-horizon-tasks frontier-models

Οι Web Agents Βρήκαν Άξιο Αντίπαλο: Γιατί η Τρέχουσα Τεχνητή Νοημοσύνη Κολλάει στο Πραγματικό Browsing

Θυμάστε όταν η AI νίκησε τους ανθρώπους στο σκάκι; Μετά στο Go; Κάθε επιτυχία έμοιαζε βήμα προς την γενική νοημοσύνη. Όμως, αν δοκιμάσετε web agent για κάτι πρακτικό –όπως κράτηση πτήσης, σύγκριση προϊόντων από πολλά sites ή οργάνωση ταξιδιού με στάσεις– θα δείτε το πρόβλημα: χάνονται εύκολα.

Δεν φταίνε τα μοντέλα. Φταίνε οι μετρήσεις μας.

Το Χάσμα των Benchmarks που Κανείς Δεν Συζητούσε

Μέχρι τώρα, τα benchmarks για web agents ήταν... αισιόδοξα. Εστίαζαν σε απλές εργασίες ενός site: "Σύνδεση λογαριασμού." "Συμπλήρωσε φόρμα." "Πάτησε κουμπί." Τα κορυφαία μοντέλα τα σαρώνουν πια. Δεν μαθαίνουμε τίποτα νέο.

Η πραγματική πλοήγηση στο web είναι διαφορετική. Οι χρήσιμες εργασίες είναι χαοτικές, πολλαπλών βημάτων και δύσκολες:

Σύγκριση προϊόντων από Amazon, Walmart, Best Buy και niche καταστήματα ταυτόχρονα.
Σχεδιασμός ταξιδιών με πτήσεις, ξενοδοχεία, ενοικιάσεις αυτοκινήτων και αξιοθέατα σε διάφορα sites.
Συλλογή δεδομένων από reviews, τιμές και διαθεσιμότητα δεκάδων πηγών.

Χρειάζονται σταθερή μνήμη, λογική μεταξύ sites και συγκέντρωση για ώρες. Αντίθετα με τα σύντομα tests.

Εδώ μπαρούν τα Odysseys.

Γνώρισε τα Odysseys: Το Benchmark που Αντιγράφει την Πραγματικότητα

Ερευνητές από Carnegie Mellon δημιούργησαν τα Odysseys: 200 μακροπρόθεσμες εργασίες web, βασισμένες σε πραγματικές συνεδρίες browsing, δοκιμασμένες σε ζωντανό Internet. Όχι προσομοιώσεις. Πραγματικά sites, πολυπλοκότητα, σφάλματα.

Τα αποτελέσματα; Απογοητευτικά. Το καλύτερο μοντέλο έφτασε 44,5% πλήρη επιτυχία. Άρα, 55% αποτυχίες σε ρεαλιστικά σενάρια.

Και το χειρότερο: ακόμα και η μέτρηση επιτυχίας είναι πρόβλημα.

Γιατί το "Επιτυχία/Αποτυχία" Δεν Φτάνει πια

Φανταστείτε: agent σχεδιάζει ταξίδι 3 ημερών στην Ιαπωνία. Κλείνει πτήσεις, ξενοδοχείο, 3 αξιοθέατα. Ξεχνάει όμως ένα εστιατόριο που ζητήσατε. Επιτυχία ή όχι;

Στα παλιά benchmarks, πρέπει να διαλέξεις. Στην πράξη, έκανε μερική δουλειά. Τα Odysseys φέρνουν rubric-based evaluation: σπάνε κάθε εργασία σε checkpoints, βαθμολογώντας ξεχωριστά. Όχι δίπολο, αλλά κλίμακα με σαφή κριτήρια. Συμφωνεί περισσότερο με ανθρώπους από τα LLM-as-judge.

Αυτό αλλάζει τα πάντα.

Το Πρόβλημα Αποδοτικότητας που Ξάφνιασε

Η επιτυχία δεν αρκεί. Ακόμα και όταν πετυχαίνουν, οι agents είναι αναποτελεσματικοί.

Τα Odysseys μετράνε Trajectory Efficiency: πρόοδος ανά βήμα. Σαν "αποδοτικότητα ανά compute".

Αποτέλεσμα: μόλις 1,15% στα κορυφαία μοντέλα. Παρακάμπτουν, επαναλαμβάνουν, σπαταλάνε βήματα. Αν χρειάζονται 1000 ενέργειες για δουλειά 50 βημάτων ανθρώπου, το κόστος εκτοξεύεται –φόρτωμα σελίδων, rendering JavaScript, πλοήγηση.

Τι Δείχνουν τα Πραγματικά Δεδομένα

Δοκιμάστηκαν 8 μοντέλα. Γράφημα επιτυχίας vs "step budget" (επιτρεπόμενες ενέργειες): όλα sigmoid καμπύλες. Μηδέν μέχρι 15 βήματα. Άνοδος 20-70. Στασιμότητα μετά 80.

Τα API μοντέλα ανεβαίνουν γρηγορότερα. Κανείς δεν πλησιάζει 100%. Πολύς χώρος βελτίωσης –ή αποτυχίας.

Γιατί Αφορά την Αγορά

Χτίζεις προϊόντα με web agents; Τα Odysseys είναι ξυπνητήρι.

Ιδρυτές/Developers: Μην εμπιστεύεστε για σύνθετες ροές. Απλοποιήστε ή προσθέστε ανθρώπινη εποπτεία.

Ερευνητές AI: Τέλος εύκολες νίκες. Χρειάζεστε καλύτερη διαχείριση context, planning, navigation.

Παρόχοι υποδομής (όπως εμείς στο NameOcean): Πώς σχεδιάζουμε APIs, hosting, DNS, SSL για agents; Πρέπει να γίνουν "agent-friendly" –εύκολη αναγνώριση domains, cross-site context, γρήγορη service discovery.

Το Κύριο Συμπέρασμα

Οι web agents δεν αντικαθιστούν ανθρώπους σε σύνθετα tasks. Προχωράνε όμως. Τα Odysseys μετράνε πραγματική πρόοδο, όχι ψίχουλα σε εύκολα.

Δεν είναι "αν", αλλά "πότε". Για όσους χτίζουν τώρα, μετράει.

Το benchmark είναι online, με tasks, rubrics, βίντεο. Δοκιμάστε το. Μπορεί να εξηγήσει γιατί κολλάει το δικό σας setup.

Read in other languages:

RU BG CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN