多 Agent 编排实战：Codex 写代码、Claude Code 审查、Hermes Agent 验证

发表于 2026-06-04 更新于 2026-06-21 分类于 AI Agent 阅读次数：本文字数： 854 阅读时长 ≈ 3 分钟

原文作者： Shubham Saboo（Google AI PM）
来源： LinkedIn / X @Saboo_Shubham_

你的编程 Agent 可能在骗你。它会告诉你构建通过，但从来没真正跑过构建。它会说测试通过了，但写的测试从来没被执行过。

这是 Shubham Saboo 在多 Agent 编排领域最核心的观点。而他的解决方案是：用三个不同的 Agent，让它们互相制衡。

一、三 Agent 架构

“Codex builds it. Claude Code reviews it. Hermes Agent verifies that neither of them is lying.”

1
2
3

Codex → 构建代码（执行者）
Claude Code → 审查代码（审查者）
Hermes Agent → 验证结果（验证者）

关键在第三步： Hermes 从不相信工人的自我报告（self-report）。Codex 说”构建完毕”？Hermes 会在自己的 shell 里重新跑一遍构建和测试，确认通过才算数。

“If you can’t verify it from a shell, it isn’t done.”

这个架构的核心原语是 **/goal**。它不是普通的 prompt。

普通 prompt 的工作方式：

/goal 的工作方式：

“A normal prompt asks for the next response. You read it, decide if it’s right, push it forward. You steer every turn. Goal flips that.”

Saboo 的 cheat sheet 列出了好 /goal 必须包含的四个部分：

最常见的错误是写一个模糊的 /goal。比如：

这些都不是可验证的标准。Codex 可以”完成”它们，但你没法验证。正确的写法是：

LinkedIn 上的讨论中还提到了一个重要的扩展：认证（Authorization）。

“As agents interact with infrastructure, financial systems, APIs, and other agents, future architectures will likely require both capabilities.”

也就是说，Agent 系统需要两个能力：

目前 Hermes + Codex + Claude Code 解决了验证问题，但授权的方案还在演进中。

“Workers change. The primitive stays the same.”

Codex 可能换、Claude Code 可能换，但 /goal 这个原语——把”完成”的定义从模糊 prompt 变成可验证的契约——才是多 Agent 编排能规模化运作的真正基石。

本文内容基于 @Saboo_Shubham_ 的 LinkedIn/X 推文整理翻译。