大整合 (The Great Convergence)
大整合 (The Great Convergence)
在過去的一年中,科技界發生了一件奇特的事:許多截然不同的公司開始朝向相同的產品形態發展,感覺每個人都在打造同樣的東西。
Linear 上週宣布他們正在開發程式撰寫 Agent。OpenAI 正在棄用 Sora,並將重心完全轉向 Codex。Anthropic 顯然已全力投入 claude code 和 cowork。Notion 正在為工作打造 Agent。Google、Microsoft、Meta (Manus)、Lovable、Retool 以及許多其他公司也都在這麼做。
這些公司擁有不同的歷史、客戶和產品類別,但它們正開始向同一個概念靠攏:一種能夠接受目標、使用工具並代表你執行工作的軟體。
這種整合並不難解釋:市場規模極其龐大。這遠不止是一項新功能,其目標是企業知識型工作。
發生了什麼變化
重要的轉變不僅僅是模型變得更強大(儘管這是它能運作的主要原因),而是通用「框架」(harness) 的發明。

Claude Code 是一個巨大的突破。雖然最初是為程式撰寫的使用場景而發明,但事實證明,如果你給予正確的工具,一個智慧型的循環 Agent 可以非常出色地泛化應用於任何基於電腦的任務。(claude code -> claude cowork)
因此,這種新技術應運而生,並成為了一台通用的問題解決機器。它還在一個非常獨特的維度上進行擴展:它可以長時間持續運作(自主性級別在理論上是系統的一種配置)。
這是軟體的聖杯:一個概念上簡單,卻能解決許多問題的系統。
它呈現為「模型框架 + 目標 + 一組工具」的形態。它在一個循環中執行,不斷呼叫工具,直到停止並產生結果。
我稍微簡化了一些內容,要將這些事情做好需要大量的執行工藝,但如果你構建了這個系統,然後向其中投入 token,那麼它所能達到的成就似乎幾乎沒有理論上限。更多的工具、更多的 token、更貪婪的演算法,這些似乎都能擴展,而且模型從這一點開始只會變得越來越好。
在過去的幾年裡,顯而易見的是 LLM 在編寫程式碼方面非常出色。它們表現得如此優異,以至於程式撰寫是目前公認通往 AGI 的最佳路徑。而這些框架以及它們的工具,本質上都只是程式碼。
由於「框架 + 模型 = 程式碼 + 智慧」,它們具備了隨著時間推移進行反思和自我改進的能力。Andrej Karpathy 最近在他的原型 AutoResearch 中提出了這個想法,並在網路上瘋傳:
機會所在
目標不是多一個 AI 功能;而是自動化企業知識型工作。如果你能將此銷售給其他公司,你銷售的就是勞動力本身。這種需求可能沒有上限。
這是一個如此巨大的機會,以至於像 Sora 或 chatGPT 這種「個人 AI 使用場景」的 B2C 動作顯得微不足道。從這個角度來看,OpenAI 將重心從 B2C 轉向企業使用場景是完全合理的。每個人都應該,也可能都會這麼做,這是經濟上最理性的做法。

持續學習 (Continuous Learning)
當我在 Cruise 從事自動駕駛汽車工作時,願景是「持續學習機器」(Continuously Learning Machine, CLM) 的概念。目標是讓汽車四處行駛、收集經驗,然後進行改進,這指導了所有工程團隊的努力。

當然,這從未完全實現,過程中總是有人類參與 (human in the loop)。儘管如此,這仍然是一個非常有用的北極星指標:隨著時間推移,人類的介入越來越少,而且僅在最具槓桿作用的領域(困難的標註、模型調優、部署決策)進行干預。
我們極大地壓縮了回饋週期,在我待在那裡的 4 年中,我們將在車輛上部署新模型的頻率從大約每季一次提升到每週一次。那種迭代速度令人難以置信,並使 Cruise 率先在舊金山部署了自動駕駛車輛,領先於 Waymo。
這種持續學習的理念即將在這些 Agent 產品中無處不在。構建盡可能自主的軟體工廠正在各處發生。就像 CLM 一樣,人類總會以某種方式參與其中[1][2]。
競爭將圍繞在這個新維度展開:你的產品在自主性滑桿上的位置。

在 Cruise,回饋循環是:駕駛 -> 收集資料 -> 重新訓練模型 -> 部署。對於 LLM Agent 來說,循環是:執行 -> 監控 -> 改進框架程式碼與上下文工程 -> 再次執行。不同之處在於 Agent 本身可以閉合這個循環。它可以反思自己的表現,並利用其程式撰寫能力來實作更好的方法。
史丹佛研究員 @yoonholeee 最近宣布了正是這個想法,他將其稱為「Meta-Harness」:
應用層的整合
這種模式隨處可見:
日曆應用中的新 Agent
旅遊預訂應用中的新 Agent
房屋租售網站中的新 Agent
地圖應用中的新 Agent
電子郵件客戶端中的新 Agent
...
所有這些都只是使用了帶有正確工具和上下文管理的循環 Agent 框架架構。
許多團隊正在將 Agent 加入到他們的產品中,透過這樣做,他們正在構建 Agent 框架。在經歷了這個過程後,他們立刻感受到了這些框架的通用性,並解鎖了共同的願景。
無論你是記錄系統 (system of record)、生產力工具還是通訊平台,你都有非常強大的動機,並且現在具備了為知識型工作構建 Agent 平台的能力。
過去,不同的應用層公司擁有知識型工作價值鏈的不同部分。他們圍繞一個特定的工作流程或問題創造了大量價值。Notion 優化了文字知識和簡單的資料庫,Zapier 協助將 API 連接到工作流程中,Microsoft 製作了辦公室套件,幫助知識工作者處理文件或試算表。
記錄系統公司(Salesforce、Notion)被吸引到這裡,因為他們已經擁有了資料、工作流程,並在其他企業中擁有深厚的滲透率。他們所要做的就是將框架產品化,將其連接到該資料,並將其封裝為通用的生產力解決方案。
模型公司 (@AnthropicAI, @OpenAI) 被吸引到這裡,因為他們擁有智慧層和成本曲線。但模型層競爭非常激烈,商品化速度很快,且利潤率並不高。他們自然地向應用層發展,而殺手級應用就是通用框架。
通訊平台公司(Slack、Meta、Teams)被吸引到這裡,因為 Agent 需要進行溝通(彼此之間以及與人類之間),而他們已經解決了這個問題。他們是管理混合 Agent/人類世界中 Agent 的天然歸宿。
最後,一些公司已經同時在做這些事情(Microsoft、Google),因此有複合的理由來構建垂直整合的解決方案。
最終,每家企業都希望在他們的專業範圍內為客戶解決盡可能多的問題。有了這項新技術,他們可以拉高視角,專注於解決成果,而不是任務。

願景是將一個成果(KPI 或其他長期業務目標)交給一個 Agent 系統,然後該系統將開始成為一個軟體工廠,構建自身並朝著該成果進行長期的自我改進。
每個人都在整合:他們正在構建執行知識型工作的自我改進 Agent。
基礎設施的整合
基礎設施服務於應用層,因此整合也隨之而來。
鑑於 Agent 應用層需求的規模,我預計所有基礎設施公司都會將自己重新定位為「Agent 的基礎設施」。
Databricks、Vercel、Cloudflare、AWS、Supabase,所有這些公司都是如此。這個機會極其巨大,而且非常水平化。你不需要像 AWS 那樣構建 200 個獨立的最佳服務。透過提供基本的構建模組(沙盒、用於電腦操作的虛擬電腦、儲存、檔案系統、版本控制),你就可以覆蓋巨大的市場。
為了構建我們上面討論的自我改進 Agent,你需要以下模組:
用於編寫和執行程式碼的沙盒
賦能 Agent 使用網路的電腦操作基礎設施(目前尚未得到很好的解決)
監控(spans、traces 和評估工具)
編排基礎設施
你仍然需要經典的構建模組,我這裡重點關注的是 Agent 的特定需求。

基礎設施的整合在於,公司希望擁有完整的循環:監控與追蹤、沙盒與 Agent 使用的電腦、Agent 編排以及程式開發環境。
在服務 Agent 生命週期的整個基礎設施需求方面,有明顯的優勢。無論是在整合的深度(這會帶來更好的改進回饋循環),還是在經濟和實用層面上(從一家供應商購買比從多家供應商購買更容易)。
一旦你擁有了所有這些組件,你就可以構建長期運作、受到嚴密監控的 Agent,執行長期且具有經濟效益的任務。你將最終結果的回饋加上所有的監控資訊輸入到下一次執行中,並要求 Agent 改進自己。它會使用「觀察、假設、實驗」的科學方法來編寫程式碼並操作自己的上下文,並且它會持續運作。
預測
我的預測很簡單:到 2026 年底,許多軟體公司看起來就像是在銷售同樣的東西。
這就是大整合:應用公司、模型公司和基礎設施公司都開始朝向同一個目標發展。
這不是因為業界失去了想像力,而是因為架構和經濟因素正在將每個人推向同一個目的地:能夠接受目標、使用工具並產生業務成果的自我改進軟體系統。
框架解釋了整合。自我改進解釋了加速。一旦 Agent 可以透過更改自己的程式碼和上下文來進行監控、評估、編排和改進,那些擁有更多該循環的公司將會改進得更快,並且他們的進步將會產生複合效應。
贏家不僅僅會擁有更好的模型。他們將擁有分發能力、受信任的工作流程定位、專有上下文,以及從觀察到改進的最短路徑。
[1] Notion 最近採取了反向定位,讓人類參與其中:Think Together https://x.com/ivanhzhao/status/2038670159259619644
[2] Elon 曾著名地承認他試圖過度自動化 Tesla 工廠,並學到了有些事情應該由人類來完成的教訓
