# 策展 · X (Twitter) 🔥🔥🔥🔥🔥

> 作者：Mira Murati (@miramurati) · 平台：X (Twitter) · 日期：2026-05-12

> 原始來源：https://x.com/miramurati/status/2053939069890298321

## 中文摘要

Mira Murati 發布「interaction models」，從頭訓練全新模型原生支援即時互動，而非在輪流式模型上強加互動層。

Thinking Machines 公司推出「interaction models」研究預覽版，這是全新類別的模型，從頭訓練以原生處理即時互動，強調互動性應與智慧同步擴展，而非視為事後附加。Mira Murati 批評當前 AI 體驗像「停下說話後才開始的對話」，使用者被迫批次化思緒、像寫 email 提問、無法指向物件，介面不留空間給人類而迫使人類適應模型。

**現有 AI 協作瓶頸**

當前 AI 實驗室視自主性為首要能力，導致模型與介面未優化讓人類持續參與迴圈。雖然自主介面有價值，但真實工作中，使用者無法預先完整指定需求並離開；優質結果需透過協作流程，人類持續澄清與回饋。然而，人類正被介面擠出，不是工作不需要他們，而是介面無空間。Mira Murati 強調，人類最有效時應如與他人般與 AI 協作：傳訊息、說話、傾聽、見面、展示，並隨需插話——模型也應如此。

現有輪流式（turn-based）介面限制嚴重：模型單執行緒體驗現實，使用者未完成輸入時模型等待，無感知使用者動作；模型生成中感知凍結，直至完成或中斷。這形成狹窄頻寬瓶頸，限制人類知識、意圖、判斷傳達至模型，也限制模型工作被理解。Thinking Machines 主張透過多模態即時互動解決此瓶頸，讓 AI 介面適應用戶，而非反之。

**與既有方法的差異**

多數 AI 模型用 harness 拼湊互動，模擬中斷、多模態或並行，但「bitter lesson」顯示手工系統將被通用能力進展超越。互動若要隨智慧擴展，必須內嵌模型本身；擴展模型將使其更聰明且更好協作。Thinking Machines 從頭訓練 interaction model，採用多串流、微輪次（micro-turn）設計，確保即時回應性，研究預覽展示全新互動能力，以及智慧與回應性的最先進綜合表現。

**核心能力解鎖**

將互動內嵌模型，解鎖無需 harness 實現的能力：
- **無縫對話管理**：模型隱式追蹤說話者是否思考、讓步、自訂正或邀請回應，無獨立對話管理元件。
- **語言與視覺插話**：依上下文即時介入，而非僅使用者說完。
- **同時語音**：使用者和模型可並行說話（如即時翻譯）。
- **時間意識**：模型直接感知經過時間。
- **同時工具呼叫、搜尋與生成 UI**：邊說話邊聽使用者，模型可並行搜尋、瀏覽網路或生成 UI，並適時織入對話結果。

**系統架構概述**

Interaction model 與使用者持續雙向交換，感知與回應同時進行。從頭建構原生此模式的模型，涵蓋音訊、影片、文字，核心為兩理念：時間意識 interaction model 維持即時存在感，以及非同步背景模型處理持續推理、工具使用、長視野工作。

系統運作：interaction model 持續與使用者交換；任務需深度推理時，委託背景模型非同步執行。Interaction model 全程維持存在——回應追問、接收新輸入、維持脈絡——並將背景結果到達時整合進對話。此分割讓使用者同時享即時回應性與完整智慧：規劃、工具使用、Agentic 程式開發等，延遲僅如非思考模型。

**Interaction model 細節**

從連續音訊與影片起步——這些模態本質即時，文字可等。設計圍繞最難案例，先建多模態、時間意識架構，處理所有模態並行輸入輸出串流。

- **時間對齊微輪次**：以 200ms 輸入與 200ms 輸出的微輪次持續交錯處理，而非完整使用者輪次後完整回應。輸入輸出 token 視為串流，200ms 區塊實現近即時多模態並行。
- **無編碼器早期融合**：非經大型獨立編碼器處理音訊影片，而是最小預處理，所有元件從頭與 transformer 共同訓練。
- **推論最佳化**：推論時 200ms 區塊需頻繁小規模預填充與解碼，嚴格延遲限制；實作串流工作階段，避免頻繁記憶體重分配與中繼資料計算。
- **訓練器-取樣器對齊**：位元級 trainer-sampler 對齊有助訓練穩定與系統除錯。
- **模型間協調**：委託時傳送豐富脈絡包——非獨立查詢，而是完整對話；背景模型產生結果串流回，interaction model 依使用者當下動作適時交錯更新。

**安全考量**

即時互動對安全壓力不同於輪流交換，安全工作聚焦兩軸：模態適當拒絕（modality-appropriate refusals），以及長視野穩健性（long-horizon robustness）。

**基準表現**

名為 TML-Interaction-Small 的 interaction model 是首個兼具強大智慧/指令遵循與互動性的模型。用 [FD-bench](https://youtu.be/A12AVongNN4) 測互動品質（少數專測互動基準之一），Audio MultiChallenge 測智慧與指令遵循，展示最先進綜合表現。

**全新互動維度**

既有互動基準未捕捉觀察到的質性躍進，Thinking Machines 初步工作量化這些，包括時間意識、同時語音、視覺主動性（Visual proactivity）。

**影片示範亮點**

YouTube 影片（[https://youtu.be/A12AVongNN4](https://youtu.be/A12AVongNN4)）展示全雙工音訊視訊系統：即時串流輸入，邊對話邊回應。情境包括：
- AI 偵測畫面中人進入即說「朋友」。
- 即時印地語翻譯成英文，介紹預覽模型簡化人-AI 對話，具網頁搜尋與工件（Artifacts）生成功能。
- 回應人類感官反應時間查詢：觸覺約 150 毫秒、最快；聽覺 140-170 毫秒；視覺 180-250 毫秒，最慢。
- 即時生成長條圖「Human Reaction Times by Modality」（觸覺、聽覺、視覺，縱軸毫秒）。
- 解釋聽覺比視覺快因聲音訊號路徑更短直接。

**公司願景與立場**

Thinking Machines 創立以推進人-AI 協作，此為首個具體投注。Mira Murati 強調，與 AI 工作方式與其智慧同等重要；多數實驗室視自主為目標、互動為輪流核心周邊 scaffold，我們認為互動須內嵌模型，並隨智慧擴展而非落後。發布日期為 2026 年 5 月 11 日，詳見 [官方部落格](https://thinkingmachines.ai/blog/interaction-models/)。此作法挑戰產業慣性，主張擺脫「人類適應 AI」的窘境，朝自然協作演進。

## 標籤

新產品, 產業趨勢, Thinking Machines
