AI 团队持久作战,拓扑管理才是关键

AI 团队持久作战,拓扑管理才是关键

五月 22, 2026 ai-development multi-agent-systems infrastructure-as-code claude coding-automation devops agent-orchestration

给 AI 团队搭个“持久网络”:拓扑管理为什么重要

你要是用过多个 AI 编程助手,肯定踩过同一个坑:每次重启,所有 agent 就都失忆了。你得重新讲一遍上下文、重新梳理流程、重新同步上周的决定。就像每天早上都要给同一批外包重新做入职培训。

OpenRig 的思路是:把多 agent 协作当成基础设施来管理——因为它本来就是基础设施。

现在 AI 编码流程的麻烦

现在大多数人启动 AI agent 做开发,本质上都是在跑孤立的会话。Claude 刚写完一段代码,你一切换,GPT-4 又从零开始,对之前的事一无所知。没有共享记忆、没有固定身份、也没有真正的“团队”。

这种方式对付临时任务还行,但真到实际开发里就撑不住了。真实场景需要的是:

  • 固定身份:同一个 agent 能连续工作好几天甚至几周
  • 共享知识:多个 agent 能互相学习对方发现的内容
  • 决策持久化:昨天定的架构方案,今天重启后还在
  • 可扩展协作:十几个 agent 一起干活,也不乱套

这就像用裸机跑生产环境——理论上能跑,但现实里很容易翻车。

拓扑:给 agent 团队建基础设施

OpenRig 借用了基础设施即代码的思路,提出了 rig 这个概念——用 YAML 定义的一套 agent 拓扑结构,把它们当成一个整体来管理。

有点像 Terraform,但针对的是你的编码团队。

一个 rig 不是简单的 agent 列表,而是一个图结构。agent 会被分组到不同的 pod 里共享上下文,pod 之间通过定义好的边来通信。整个拓扑可以快照、持久化、恢复,就像一个完整的系统。

实际操作就是:

一个 YAML 文件,一条命令,整个团队就启动了。

pods:
  orchestration:
    agents:
      - lead (Claude Opus)
      - coordinator (Claude Sonnet)
  
  development:
    agents:
      - implementation (Claude Code)
      - review (Codex)
  
  research:
    agents:
      - explorer-1, explorer-2, explorer-3

这不是概念验证,而是实打实的基础设施定义。

几个改变游戏规则的功能

持久身份

agent 不再是临时工。同一个 agent 可以长期保持角色、知识和协作关系不变。当上下文窗口满了,agent 会把完整状态迁移到新会话里继续,而不是重新开始。

跨拓扑的共享内存

同一个 pod 里的 agent 可以把状态外部化并共享。当一个 agent 的上下文被压缩后,其他 agent 还能恢复这些知识。架构决策、代码模式、设计选择都能在整个网络里累积,而不是重启就清零。

单一协调入口

一个界面就能管理所有 agent。你甚至可以用 Claude 的远程控制在手机上查看整个 agent 舰队。不用在不同工具间切换,一个对话就能搞定整个拓扑。

真实案例:大家已经在用的拓扑模式

文档里已经出现了几种实际使用模式:

对抗式审查:两个 agent(Claude 和 Codex)从不同角度审查同一个 PR。不同模型能抓住不同类型的 bug,优势互补。

研究集群:四个 agent 平行探索同一个问题,没有层级结构。知识库在所有 agent 之间共享,实现真正的并行研究。

安全加固:攻击 agent 负责探测,防御 agent 负责修补,观察 agent 负责记录。三者作为一个整体迭代,直到攻击面清理干净。

持续重构:重构任务在夜间自动运行,审查 pod 负责检查回归问题。没有瓶颈,真正的异步工作。

agent 管理的基础设施:一个 agent 负责操作 HashiCorp Vault,为整个团队管理密钥。基础设施即代码,现在变成了基础设施即 agent。

这对你的架构意味着什么

传统工作流默认 agent 是用完就扔的。但当你真正做软件开发时,这个假设就站不住脚了:

  • 知识累积更快:agent 记得之前学到的东西,决策质量会越来越好
  • 上下文不重置:不用反复解释同一个需求五遍
  • 专业化分工成为可能:一个 agent 专职测试,另一个专职重构,互不干扰
  • 异步工作真正落地:你睡觉的时候,agent 还在改进代码,而且不会丢掉连贯性

这才是当 agent 网络拥有持久身份和共享内存时,才能实现的效果——不是更好的单个 agent,而是真正能像团队一样运作的团队

如何上手:从发现到编排

OpenRig 内置了发现模式。如果你已经在 tmux 或其他环境里跑了 agent,rig discover 可以扫描现有会话,自动生成一份候选的 RigSpec(拓扑定义)。你不是从零开始,而是把已有的工作流正式化。

剩下的交给 CLI:启动、快照、恢复、可视化。一条命令就能把整个舰队上线。

对于在 NameOcean 或其他托管平台上做开发的工程师来说,这套思路很熟悉。你用 YAML 定义生产环境,版本控制它,清楚地知道有哪些资源存在。OpenRig 把同样的纪律带到了 AI 开发流程里。

更大的图景

OpenRig 是开源的,除了你已经在用的 Claude 或 Codex API key,不需要额外密钥。它是你能完全掌控的基础设施,而不是又一个黑箱厂商方案。

最初的问题是“怎么让 agent 不忘事”,结果演变成了更基础的东西:让 agent 团队能在真实工作中存活下来的基础设施原语。这种存活性,在 AI 领域往往被低估——它决定了你用的是玩具还是能真正交付的工具。

你的 agent 拓扑就是基础设施。要像对待基础设施一样对待它:定义它、版本控制它、恢复它、持续改进它。

这才是 OpenRig 真正带来的价值。


想了解持久化、协作式的 agent 团队怎么改进你的开发流程?可以查看完整的 OpenRig 文档,或者直接去 GitHub 仓库拉代码,启动你的第一个 rig。

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DE DA EN