Web Agents 栽了：AI 为啥还搞不定真实网页浏览

四月 29, 2026 ai web-agents benchmarking machine-learning automation long-horizon-tasks frontier-models

Web Agents 遇上对手了：为啥现在AI还搞不定真实网页浏览

还记得AI碾压人类下棋、围棋的那些日子吗？每破一个纪录，都觉得通用AI指日可待。可你要是让AI web agent 帮你订机票、比价好几家店的商品，或者规划跨城旅行，估计它很快就迷路了。

问题不在模型上。咱们测评方式错了。

以前的web agent测试，基本就是小打小闹。几分钟内单网站搞定：登录账号、填表单、点按钮。顶尖模型早都满分了，没啥参考价值。

真实世界可不一样。真有用的时候，任务乱七八糟、多步骤、超难搞：

这些需要AI保持长时上下文、跨网站推理，还得专注几小时不走神。跟以前的短平快测试完全反着来。

现在来了 Odysseys。

卡内基梅隆大学的研究员推出 Odysseys——200个长序列网页任务，全从真人真实浏览录像提炼，还在活的互联网上测。不是实验室假网站，是真枪实弹的复杂现场。

结果呢？挺扎心。最牛模型完美完成率才44.5%。意思是55%的真实任务，它要么失败，要么半途而废。

更狠的是，连“成功”怎么评都成难题。

比如，让AI规划日本三天游。它订了机票、找了酒店、挑了三个景点。但你指定的餐厅，它漏了。这算成功还是失败？

老方法非黑即白，没法说。可实际上，它部分搞定了。老基准完全忽略这点。

Odysseys 用rubric-based evaluation——把任务拆成细碎检查点，一个个独立验证。不再是过不过，而是打分量表，标准明确具体。比扔给LLM当裁判靠谱多了，跟真人判断吻合度更高。

这区别，超级重要。

光看成功率，还漏了大半故事。就算成功，AI也超级低效。

Odysseys 加了Trajectory Efficiency指标——每步推进多少分进度。简单说，就是计算“性价比”。

结果：顶尖模型才1.15%。它老绕弯路、走神、重查已知信息，步子白烧。人类50步的事，它要1000步。实际用时，每步加载页面、等JS渲染、钻复杂结构，成本高到离谱，经济上扛不住。

测了8个顶尖和开源模型。完美完成率对“step budget”（允许步数）的曲线，全是S形：前15步基本零分，20-70步猛冲，80步后就平了，没戏。

闭源API模型爬得快点、高点。但没一个满分。潜力巨大——或者说，失败空间也大。

做依赖web agent产品的公司越来越多，Odysseys 是当头棒喝。

创业者和产品狗：复杂多步浏览，还指望不上。不行就简化任务，或加人工盯梢。

AI研究员：简单关过了。新战场是长序列、多网站推理。要更好管上下文、规划、智能导航。

基础设施商（比如我们NameOcean）：这基准让人想，服务怎么设计才AI友好？domain间推理难、跨网站上下文弱，DNS、SSL、服务发现该怎么搭？hosting和API得优化，让agent轻松集成。

Web agents 还换不了人类脑子干复杂活。但进步没停。Odysseys 给了真家伙——不光刷简单题的小进步，而是攻真实痛点的硬实力。

AI啥时搞定？不是会不会，是啥时候。今天用这技术的团队，得掂量掂量。

基准已上线，有任务记录、详细rubric、视频回放。玩web agent的，赶紧试试。说不定就找出你家实现卡壳的原因。

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DE DA EN