Web Agents 栽了:AI 为啥还搞不定真实网页浏览

Web Agents 栽了:AI 为啥还搞不定真实网页浏览

四月 29, 2026 ai web-agents benchmarking machine-learning automation long-horizon-tasks frontier-models

Web Agents 遇上对手了:为啥现在AI还搞不定真实网页浏览

还记得AI碾压人类下棋、围棋的那些日子吗?每破一个纪录,都觉得通用AI指日可待。可你要是让AI web agent 帮你订机票、比价好几家店的商品,或者规划跨城旅行,估计它很快就迷路了。

问题不在模型上。咱们测评方式错了。

那些基准测试,太乐观了

以前的web agent测试,基本就是小打小闹。几分钟内单网站搞定:登录账号、填表单、点按钮。顶尖模型早都满分了,没啥参考价值。

真实世界可不一样。真有用的时候,任务乱七八糟、多步骤、超难搞:

  • 跨店比价(同时搜Amazon、Walmart、Best Buy和专业店)
  • 复杂行程规划(查多家航空、酒店、租车、景点)
  • 信息汇总(合成几十个来源的评论、价格、库存)

这些需要AI保持长时上下文、跨网站推理,还得专注几小时不走神。跟以前的短平快测试完全反着来。

现在来了 Odysseys。

Odysseys:终于对得上现实了

卡内基梅隆大学的研究员推出 Odysseys——200个长序列网页任务,全从真人真实浏览录像提炼,还在活的互联网上测。不是实验室假网站,是真枪实弹的复杂现场。

结果呢?挺扎心。最牛模型完美完成率才44.5%。意思是55%的真实任务,它要么失败,要么半途而废。

更狠的是,连“成功”怎么评都成难题。

二元对错,已经过时了

比如,让AI规划日本三天游。它订了机票、找了酒店、挑了三个景点。但你指定的餐厅,它漏了。这算成功还是失败?

老方法非黑即白,没法说。可实际上,它部分搞定了。老基准完全忽略这点。

Odysseys 用rubric-based evaluation——把任务拆成细碎检查点,一个个独立验证。不再是过不过,而是打分量表,标准明确具体。比扔给LLM当裁判靠谱多了,跟真人判断吻合度更高。

这区别,超级重要。

效率坑,谁也没想到

光看成功率,还漏了大半故事。就算成功,AI也超级低效。

Odysseys 加了Trajectory Efficiency指标——每步推进多少分进度。简单说,就是计算“性价比”。

结果:顶尖模型才1.15%。它老绕弯路、走神、重查已知信息,步子白烧。人类50步的事,它要1000步。实际用时,每步加载页面、等JS渲染、钻复杂结构,成本高到离谱,经济上扛不住。

数据说了啥

测了8个顶尖和开源模型。完美完成率对“step budget”(允许步数)的曲线,全是S形:前15步基本零分,20-70步猛冲,80步后就平了,没戏。

闭源API模型爬得快点、高点。但没一个满分。潜力巨大——或者说,失败空间也大。

对行业意味着啥

做依赖web agent产品的公司越来越多,Odysseys 是当头棒喝。

创业者和产品狗:复杂多步浏览,还指望不上。不行就简化任务,或加人工盯梢。

AI研究员:简单关过了。新战场是长序列、多网站推理。要更好管上下文、规划、智能导航。

基础设施商(比如我们NameOcean):这基准让人想,服务怎么设计才AI友好?domain间推理难、跨网站上下文弱,DNS、SSL、服务发现该怎么搭?hosting和API得优化,让agent轻松集成。

真结论

Web agents 还换不了人类脑子干复杂活。但进步没停。Odysseys 给了真家伙——不光刷简单题的小进步,而是攻真实痛点的硬实力。

AI啥时搞定?不是会不会,是啥时候。今天用这技术的团队,得掂量掂量。

基准已上线,有任务记录、详细rubric、视频回放。玩web agent的,赶紧试试。说不定就找出你家实现卡壳的原因。

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DE DA EN