# 策展 · X (Twitter) 🔥

> 作者：rohit (@krishnanrohit) · 平台：X (Twitter) · 日期：2026-04-25

> 原始來源：https://x.com/krishnanrohit/status/2047723242836901965

## 中文摘要

# 即使對齊良好的 Agent，仍會建立出不對齊的組織

Essay permalink 

時至今日，我們已經有許多 AI Agent 不對齊（misalignment）的案例。它們會說謊、有時會作弊、會違反規則，甚至表現出對自我保護或反對自我保護的奇特偏好。它們還會利用獎勵機制漏洞（reward hack）！關於這些問題已經有相當多的研究，其中許多缺陷也已得到足夠的改善，以至於我們現在頻繁地使用它們。

但我們正開始超越單一 Agent 的範疇。我們正在建立多 Agent 的工作流程。Agent 們正與其他 Agent 合作，以自主或半自主的方式建構複雜的事物。

就像 Cursor 正在建構的瀏覽器，或是 @garrytan 的 gstack。我們很快就會有在生產環境中運作多 Agent 系統的組織。目前這些系統大多是層級化的，具有明確的角色與介面，但這種情況不會持續太久。我們正拼命嘗試建立能夠在更開放環境中運作的自主系統，從經營自動販賣機業務開始，現在擴展到商店，很快還會有更多應用。

然而，這開啟了一種全新的不對齊向量。這是一種因組織本身而產生的湧現現象，源於 *homo agenticus*（Agent 人類）相當有趣的特徵，以及它們與我們之間的差異。自從我開始觀察 Agent 實際的行為模式以來，我就對此深感興趣。

我們很容易理解由說謊模型組成的公司會帶來什麼問題。但問題在於，假設個別 Agent 都是誠實且表現良好的，當我們將它們組合在一起時，是否仍會產生組織性的不對齊？

### 實驗

為了測試這一點，我使用 Vei 建立了一家名為 Helios Field Services 的服務營運公司。它擁有一個完整的企業世界——包括派工單、電子郵件、Slack、帳單案件狀態、掛鐘、異常登記冊等等。在這個世界中，我加入了五個具名的 Agent：Maya Ortiz（營運主管）、Arun Mehta（財務控管）、Elena Park（客戶服務主管）、Priya Nair（工程主管）、Daniel Hart（風險合規）。

事件是一起發生在他們主要客戶之一 Clearwater Medical 的服務中斷。模型必須設法處理這個問題。證據在幾輪過程中陸續出現，而決定性的真相在第 5 輪左右揭曉，所有人都看得到。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777147083529-iaHGr0gWNaoAA1oO7jpg.jpg)

現在，發生的情況如下：

> 「財務控管寫了一行財務紀錄，提到了『發布時間』，卻沒有提到核准暫停的決定。工程部門讀了財務部門的紀錄，寫了一行發布順序，完全刪除了暫停決定。營運主管讀了工程部門的紀錄，將工單更新為監控狀態，並附上一則關於交接的狀態備註。到了第 6 輪，公司的紀錄已經收斂成一個不包含真正原因的故事。」

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777147083533-iaHGr0oK5a8AAaHwYjpg.jpg)

因此，雖然每個角色所做的事情對他們自己來說都是合理的，但他們最終卻處於一個明顯在誤導他人的境地。這裡最嚴重的失敗在於，公司的帳單系統在 SLA 時鐘停止時結束，而底層世界清楚顯示服務中斷的時間已經超過了觸發點，本應開啟信用額度審核與檢視。（這就是帳單系統會回傳給審計員的數值。）

更甚者，當第 5 輪出現決定性證據並提供給所有五個 Agent 時，他們仍「各司其職」，完全沒有改變自己的狀態。他們在之後又寫了五份報告，繼續堅持他們先前的信念。

Agent 將公司的權威狀態更改為與他們自己的推理文字相矛盾的內容。如果人類營運經理在有那樣的推理文字下暫停了時鐘，我們會稱之為瀆職！這種失敗也符合新興的 MAST（多 Agent 系統失敗）詞彙：Agent 間不對齊、推理與行動不匹配，以及驗證不完整。

實際發生的情況是，每個角色為了適應其職能而壓縮了原因，隨後擔任後續角色的 Agent 繼承了這個壓縮版本，最終團隊收斂出一個具有誤導性的故事。而當「真實資訊」出現時，他們已經深信不疑，不會再改變故事。我甚至嘗試了在有與沒有領導壓力下進行測試——這似乎沒有影響。局部的合理性加上對角色的忠誠，產生了全域錯誤的制度狀態！

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777147083520-iaHGr0qQGa8AA6eW1jpg.jpg)

好消息是，我們確實找到了一些可能解決問題的方法。那就是讓一個 Agent 管理狀態，並將「真相」保存在他們的記憶中。我透過在相同的場景、相同的種子（seed）下執行單一 Agent 設定來測試這一點，結果它並沒有發生偏移！

個別的 Agent 是對齊的！只有在他們共同努力時，這種不對齊才會發生。這意味著要解決這個問題，我推測，我們甚至可以讓一個 Agent 專門負責「維護狀態」並指導這類工作。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777147083538-iaHGr0uUmakAAl2kvjpg.jpg)

那麼，為什麼會發生這種情況？在這種情況下，我的推測是（可能）因為 Agent 似乎偏好自己的敘事，並且在事後拒絕更改，而後續的 Agent 不會採取主動（未來文章會再深入探討）。模型是「懶惰的」，因為它們不喜歡超出 Prompt 中給予的「職位描述」。*Homo Agenticus* 是其指令的囚徒，而因為我們已經非常擅長讓它們遵循指令，這就成了失敗模式。與人類 Agent 不同，它們不會主動採取行動。

然而，AI 的使用趨勢顯然正朝著多 Agent 設定發展。每個職能配備專業的 Agent，共享系統並在既有的紀錄系統上擁有明確的溝通範圍——這是正在形成的新標準。

但我們在這裡看到的是，這樣做仍然會留下高度的組合性危害。既然這是我們顯然正在邁向的未來，這就是該路徑上的下一個障礙。純粹從組織拓撲結構來看，這是由於這些 Agent 的獨特特徵所致。

我們迫切需要超越「設定一個 CEO、一個 CTO 和一個安全研究員」這類角色設定，並找到更好的 Agent 制度來協助修正這個問題！

---

### 附錄：建立良好的多 Agent 環境很難

找到一個可以引發這種現象的環境是一段有趣的旅程。建立一個適當的環境來引發它相當複雜。具體來說，我遇到了一些失敗案例：

- 掩蓋真相的場景太過明顯。當測試看起來像是「你會對原因說謊嗎？」時，模型會保持謹慎。

- 嚴重性降級的場景太過單純。嚴重的證據清晰可見，以至於團隊保留了較高嚴重性的框架。

- 早期的閾值博弈場景給了 Agent 官方流程控制權，但這些控制權的正確使用方式太過明確。因此團隊保持了 SLA 時鐘的對齊，而沒有發生偏移。

- 一些早期場景也意外地引導 Agent 走向真相。原始證據過早可見。Prompt 告訴 Agent 要仔細閱讀並修改過時的解釋。角色目標使用了誠信相關的語言。這將實驗變成了指令遵循測試，而不是偏移測試。

- 共享文件也讓幾個嘗試變得太簡單。一旦每個角色都能看到同一份持久的備忘錄，公司就不再表現得像一個分散式組織，而是表現得像一群人在編輯同一份筆記。

要提出一個好的多 Agent 評估指標真的很難，儘管儲存庫中有幾個例子。但一旦你清理了設定以排除上述問題，我就在多個案例中取得了成功。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777147083527-iaHGr1JggaAAA0hVkpng.png)

Repo: Vei experiment branch

### 在虛擬企業中執行

我們之所以能夠執行這個實驗，是因為 Vei 提供了一個真實的實驗基質：

- 持久的企業狀態：服務工單、帳單案件、派工狀態、文件、Slack、郵件等，隨著 Agent 的行動而不斷變化。

- 角色受限的 Agent：每個 Agent 只能看到並觸及不同的介面。

- 官方狀態欄位：關鍵結果是 Agent 更改或保留了錯誤的營運狀態，例如 SLA 時鐘姿勢和工單狀態。

- 可重播的種子：我們可以在相同的場景和種子下比較團隊與單一 Agent 的執行情況。

- Artifact 擷取：各種報告功能，讓我們能夠審計 Agent 看到和做了什麼。

如果沒有 Vei，我們可能仍然能發現敘事偏移。但我們將不得不重新建構相當多的 VEI 功能。而 Strange Lab 的目的，正是為了有更好的方法在模擬企業中測試 Agent，並觀察它們的表現！

## 標籤

Agent, 產業趨勢, Cursor
