Introducing v2 of our Open Deep Research app!
— Together AI (@togethercompute) March 13, 2026
Generate detailed reports on any topic with open source LLMs. Fully free & open source.
We're releasing everything: evaluation dataset, code, app, and blog 🔥 pic.twitter.com/pALfqYcwvE
Try out the Open Deep Research v2 app here!https://t.co/kRbmyjymaL
— Together AI (@togethercompute) March 13, 2026
Here are more resources on how we built open deep research & the code!
— Together AI (@togethercompute) March 13, 2026
- Blog post explaining it: https://t.co/MV3njA8Rqp
- GitHub repo with the code: https://t.co/icTn6AFT8i
AI 中文摘要Claude 生成
Together AI 發布了 Open Deep Research「開源深度研究」App的 v2 版本,這是一個能夠利用開源大語言模型生成任何主題詳細報告的工具,完全免費且開源。
開源深度研究代表了人工智慧與資訊檢索方式的根本轉變。傳統搜尋長期受限於「查詢到文件」的模型,使用者輸入關鍵字後收到潛在相關來源清單,必須手動閱讀、綜合並提取見解。深度研究則突破這個限制,允許使用者提出複雜且多面向的問題,並獲得綜合性的詳細報告。這種 Agent 方式讓系統能自主進行多次搜尋、評估資訊品質、識別知識空缺,並將發現綜合成有條理的報告,將資訊檢索與分析推向新境界。它使得原本只有人類研究人員和分析師能執行的高層次智力工作成為可能。
Together AI 的實作遵循人類進行研究時的邏輯。複雜問題通常需要數十小時的投入研究,簡單的網路搜尋無法提供所有必要資訊。深度研究透過呈現更全面的資訊且始終標註來源,幫助使用者做出更明智的決策。系統從制定計畫開始,搜尋資訊、評估所找到的資訊,然後迭代直到收斂。
在技術架構上,整個工作流採用「計畫、搜尋、自我反思、撰寫」的四步驟方法。系統首先產生初始計畫(重要搜尋查詢集合),從搜尋引擎收集結果後,語言模型會評估是否存在知識空缺。為了處理長內容問題,系統用語言模型摘要原始內容以保留重要資訊,並在撰寫報告前根據相關性對所有來源進行排名。
為提高效率和降低成本,Together AI 採用混合 Agent 方式,指派不同語言模型到四個角色:計畫者使用 Qwen/Qwen2.5-72B-Instruct-Turbo;摘要者用 Llama-3.3-70B-Instruct-Turbo 進行長內容摘要;JSON 提取器用 Meta-Llama-3.1-70B-Instruct-Turbo 提取資訊;報告撰寫者用 DeepSeek-V3 彙總資訊並撰寫高品質報告。雖然 DeepSeek-R1 是頂級模型,但其回應冗長、成本高且耗時,因此未採用。系統也實現了快取機制,儲存檢索到的來源以便用不同配置重新運行實驗,雖然無時間限制的快取會影響資料新鮮度,但對評估目的已足夠。生成一份報告通常需時 2 到 5 分鐘。
評估方面,Together AI 使用 FRAMES、SimpleQA 和 HotPotQA 三個量化基準,各取 50 個例子共 150 個樣本進行測試,以評估事實性、搜尋能力和輸出品質。結果顯示深度研究相比基礎模型顯著改善答案品質。多步驟搜尋相較單步驟檢索增強生成(RAG)也展現更好的準確性,證明多跳探索的必要性。
然而,系統存在明顯限制。錯誤傳播是首要問題,初期誤解可能在後續搜尋迭代中級聯放大。語言模型也可能生成合理但不正確的資訊,尤其當來源衝突時。基礎模型可能繼承訓練資料和搜尋索引中的偏見,導致少數觀點代表性不足、刻板印象擴大,以及不同人口族群間的結果品質差異。搜尋偏見和資料新鮮度也構成挑戰,某些主題需更全面且最新的覆蓋,實時事件資訊準確性取決於頁面即時抓取而非數小時一次的索引。Together AI 期望開源發布能幫助社群深入理解深度研究系統並改進工具以減輕這些限制。
