# 策展 · X (Twitter) 🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Cloudflare (@Cloudflare) · 平台：X (Twitter) · 日期：2026-05-19

> 原始來源：https://x.com/Cloudflare/status/2056360412510060748

## 中文摘要

Cloudflare 證實 AI 具備資深漏洞挖掘能力。

Cloudflare 安全團隊近期針對五十多個內部程式庫進行測試，評估 Anthropic 的「Mythos Preview」在資安領域的實戰能力。研究顯示，該模型不僅能識別單一漏洞，更具備「攻擊鏈建構」與「自動化驗證」能力，能將多個低嚴重性漏洞串聯為具備威脅的攻擊證明（PoC），並透過編譯與執行程式碼來驗證假設，大幅縮短了從發現漏洞到確認可利用性的時間。

**模型能力的突破與限制**
「Mythos Preview」與過往通用模型最大的差異在於其推理深度。過去的模型僅能指出漏洞並給出描述，而「Mythos Preview」能自主調整假設並反覆測試，直到產出有效的攻擊證明。然而，該模型仍存在「有機拒絕」的不一致性，即針對相同程式碼，僅因環境設定或提問方式微調，模型便可能拒絕執行研究。這顯示單靠模型內建的防護機制不足以作為安全邊界，未來部署時必須額外疊加安全防護措施。

**解決雜訊與誤報問題**
在資安審查中，AI 常面臨「訊噪比」過高的挑戰，特別是模型傾向使用「可能」、「潛在」等模糊語氣，導致大量無效的推測性報告。Cloudflare 發現：
- 記憶體不安全的語言（如 C、C++）會產生更多誤報。
- 透過將多個漏洞串聯成 PoC，能有效過濾無效報告，因為「可執行的漏洞」比「推測的漏洞」更具備處理價值。

**建構專屬的 AI 執行框架（harness）**
Cloudflare 強調，直接將通用程式撰寫 Agent 丟入程式庫進行漏洞搜尋是無效的，因為 Agent 缺乏全域視野且容易受限於「視窗」限制。為此，他們開發了一套專屬的 `harness` 來管理執行流程：
1. **Recon（偵察）**：由 Agent 進行全域掃描，產出架構文件與信任邊界分析。
2. **Hunt（搜尋）**：五十個 Agent 並行搜尋，針對特定攻擊類別進行深入挖掘。
3. **Validate（驗證）**：引入獨立 Agent 進行對抗性審查，試圖推翻原始發現。
4. **Gapfill（補漏）**：針對未徹底覆蓋的區域進行二次排程。
5. **Dedupe（去重）**：合併相同根因的漏洞報告。
6. **Trace（追蹤）**：分析攻擊者輸入是否能從外部觸及漏洞。
7. **Feedback（回饋）**：將可觸及的漏洞路徑轉化為新的搜尋任務。
8. **Report（報告）**：自動產出結構化報告並提交至 API。

**對資安團隊的啟示**
許多安全主管誤以為應對 AI 攻擊的唯一解法是「加速修補」，但 Cloudflare 警告，若為了追求兩小時內修補而跳過回歸測試，反而會引入更嚴重的系統性風險。真正的防禦之道在於架構調整：
- 部署能阻擋漏洞觸及的防禦層。
- 設計隔離架構，確保單一程式碼區塊的缺陷不會導致整體系統失守。
- 建立能同步更新所有部署環境的修補機制，而非依賴各團隊手動部署。

此項研究由 Grant Bourzikas 領導，並由 Albert Pedersen、Craig Strubhart、Dan Jones、Irtefa Fairuz、Martin Schwarzl 與 Rohit Chenna Reddy 共同參與。Cloudflare 表示，這些技術將持續應用於保護其客戶的應用程式，並歡迎相關領域研究人員透過 `security-ai-research@cloudflare.com` 進行交流。

## 標籤

資安, Agent, 研究論文, Cloudflare, Anthropic
