# 策展 · X (Twitter) 🔥🔥

> 作者：Glean (@glean) · 平台：X (Twitter) · 日期：2026-04-29

> 原始來源：https://x.com/glean/status/2049127230370881870

## 中文摘要

Glean 推出 Waldo，首個 Agentic 搜尋模型，結合 NVIDIA Nemotron 3 Nano，大幅降低企業查詢延遲 50% 與 token 使用 25%。

Glean 發布 Waldo，這是其首個專為 Agentic 搜尋設計的模型，基於 NVIDIA Nemotron 3 Nano 後訓練而成，能分解查詢、選擇工具、決定下一步閱讀內容，並判斷何時擁有足夠證據移交給大型邊緣模型（frontier LLM）。Waldo 先行處理資訊蒐集階段，避免每筆企業查詢一開始就動用昂貴的邊緣模型，特別適合高量、檢索密集任務，從評估顯示，每 LLM 呼叫快 10 倍，整合 harness 後延遲降 50%、token 減 25%，品質無退化。

**Waldo 的核心架構與運作**

**Waldo 作為先行搜尋規劃器**  
Waldo 專注於邊緣模型啟動前的資訊蒐集，執行短工具計劃，使用 Glean Search、員工搜尋與網路搜尋等固定工具集，持續搜尋直到蒐集足夠脈絡或辨識任務超出搜尋範圍（如文件建立、程式碼執行或寫入工具），然後直接移交脈絡給邊緣模型，讓後者視為自身執行搜尋。關鍵設計決定是讓 Waldo 作為初始步驟，而非邊緣模型的子 Agent，此舉避免子 Agent 方式的序列推論延遲，即使單一搜尋查詢也只需一邊緣模型呼叫。

**訓練流程與資料來源**  
訓練分兩階段：先用監督式暖身，再強化學習帶任務特定獎勵。第一階段採用 DPO（Direct Preference Optimization），基於 Glean 生產環境的高品質匿名追蹤資料建構偏好對（preferred/rejected pairs），僅捕捉工具使用模式（如工具呼叫順序與計劃成功），不碰客戶資料或文件內容，教模型基本「何時搜尋、何時停止、何時移交」的條件。第二階段強化學習，讓 Waldo 對生產查詢 rollout，獎勵包含二元終止訊號（是否判定核心工具足夠）與召回/F1 分數（對照生產系統最終回應中引用文件，檢查 Waldo 是否找齊相關文件，避免過多雜訊）。有趣的是，若生產系統需多次迭代搜尋，Waldo 可學會單次完成。

**基底模型選擇**  
Waldo 以 NVIDIA Nemotron 3 Nano 為基底，此 MoE（mixture-of-experts）架構總參數 300 億、活躍參數 30 億，選因其延遲與成本優勢，並以指令模式（instruct-based）而非推理模式使用，後訓練環境確保品質。使用 Thinky Machines 的 Tinker API 進行 LoRA 微調，無需管理分散式訓練基礎設施。Waldo 不產生自然語言回應，而是強化既有 Glean 搜尋基礎設施，包括企業語意搜尋模型與「Enterprise Graph」（理解人員、內容、系統關係），僅學習「涵蓋度」：執行多少搜尋、如何變異查詢、何時證據足夠。

**效能數據與整合效益**

**單模型與系統層級提升**  
相較 Glean 預設推理模型（GPT-5.4 medium），Waldo 每 LLM 呼叫快 10 倍，平均延遲從 3 秒降至 250 毫秒。整合 Glean harness 後，整體延遲降 50%、token 減 25%，無品質退化。Glean 查詢模式分析顯示，多數任務（無論複雜度）皆從搜尋起步：搜尋內部文件、閱讀結果、合成答案，有時需迭代精煉查詢。即使最終涉及文件建立、工作流程執行或跨系統動作，也先經此脈絡蒐集階段。

**路由與推理層級決定**  
Waldo 先執行，提供工具呼叫次數、文件返回量、空乏輸出等訊號，動態判斷查詢所需推理層級：多工具呼叫卻少相關內容，表示輕量模型不足；若需超出搜尋的工具，移交訊號即成路由輸入。結合脈絡與原始查詢複雜度比較，約半數查詢走「快速路徑」，僅需最小推理，無犧牲答案品質。

**企業 AI 趨勢反思**

**邊緣模型的浪費問題**  
Glean 強調，並非每筆企業查詢都該先打邊緣模型，尤其檢索密集任務，這是最慢、最貴途徑。邊緣模型同時處理「規劃搜尋」（模式匹配、工具選擇、證據足夠性，屬機械性）與「深度推理」（長脈絡合成、細膩生成），導致為規劃付邊緣價格，並在每個迴圈增加延遲。高量、明確定義任務應隔離至小型專用模型，讓邊緣模型專注合成與回應生成。

**專用模型與工具的未來**  
企業 AI 未來需專用模型搭配專用工具，尤其高量任務重視延遲與成本。邊緣模型雖能獨立檢索，但常過度昂貴；Waldo 與邊緣模型協作，提供 End to End (端到端) Agentic 成果。Glean 歷史上用邊緣模型處理搜尋，但近期發現專用模型更高效，此模式預計普及，隨著 Agentic 系統成熟，辨識非每步驟皆需邊緣智慧，將建構更強效系統。Waldo 展現良好泛化，從 Glean 自身部署追蹤資料訓練，即適用外部客戶部署，預計很快推向客戶。

**合作與應用範圍**  
感謝 NVIDIA 與 Thinky Machines 合作。Glean 涵蓋從簡單搜尋到資料分析、內容建立、行動執行的任務，Waldo 強化此生態，讀取更多細節見連結：https://glean-it.com/4efyJX7。發布日期為 2026 年 4 月 28 日，作者 Eddie Zhou、Kunal Patil、Abhilash Samantapudi、Julie Mills。Waldo 不僅解決資訊蒐集，還揭露動態路由機會，標誌企業 AI 從通用轉向專精分工的轉變。

## 標籤

Agent, 新產品, LLM, Glean, NVIDIA
