# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Omar Shaikh (@oshaikh13) · 平台：X (Twitter) · 日期：2026-04-23

> 原始來源：https://x.com/oshaikh13/status/2046327179626029393

## 中文摘要

OpenAI研究預覽引發熱議，Omar Shaikh團隊論文提出從電腦互動學習通用使用者模型（GUM），實現預測性AI助手。

Omar Shaikh對OpenAI的研究預覽興奮不已，強調超越聊天式的電腦互動學習，將解鎖大量創新互動；他分享兩篇論文：2025年5月16日（最後修訂2025年9月21日）的「Creating General User Models from Computer Use」與2026年3月6日的「Learning Next Action Predictors from Human-Computer Interaction」。

**GUM架構創新**

現有人機互動（HCI）長期憧憬理解使用者偏好、習慣與日常動作時機與目的的技術，但當前使用者模型碎片化、侷限於特定應用，且缺乏彈性推理能力。GUM（General User Model）透過觀察使用者任何電腦互動，建構通用使用者模型，輸入為非結構化觀察（如裝置螢幕截圖），輸出信心加權的命題，捕捉使用者知識與偏好。
- GUM可從與朋友訊息推斷使用者正準備參加婚禮。
- 觀察多次停滯編輯與轉讀相關工作，即識別使用者正為合作者回饋掙扎。
GUM架構從多模態觀察推斷新命題、檢索相關命題提供脈絡，並持續修訂既有命題。

**GUM應用廣度**

GUM展現多樣應用，強化聊天助理的脈絡、管理作業系統通知選擇性呈現重要資訊，並讓互動Agent跨應用適應偏好。團隊實作主動助理「GUMBOs」，利用GUM發現並執行使用者有益建議。評估顯示，GUM對使用者的推斷具校準性與準確性，基於GUM的助理能主動辨識並執行使用者未明確要求的動作，實現HCI長期願景與全新預測需求系統。

**LongNAP預測下步**

後續論文聚焦「next action prediction (NAP)」，即從使用者多模態電腦互動序列（螢幕截圖、點擊、感測器資料）預測下一個動作，需超越提示稀疏訊號，推理完整脈絡。團隊使用視覺語言模型標註縱向自然電腦使用資料，釋出開源標註管線於私有基礎設施，標註20位使用者一個月連續手機使用逾36萬動作，總計1,800小時螢幕時間。

**LongNAP模型設計**

LongNAP結合參數與脈絡學習，推理長互動歷史；經政策梯度方法訓練，給定脈絡產生使用者特定推理軌跡、從過去軌跡庫檢索相關軌跡，並脈絡內應用檢索軌跡預測未來動作。以LLM-as-judge評估（0-1與真值相似度），LongNAP於保留資料超越監督微調（提升79%）與提示基準（提升39%），並跨個體泛化至未見使用者。儘管下步動作空間無限（數千可能），LongNAP預測軌跡中17.1%高度契合使用者真實行為（LLM-judge分數≥0.5），過濾高信心預測時升至26%。

**研究影響與機會**

這些工作批判現有使用者模型的侷限，證明從完整使用者行為脈絡學習預測需求已成可行任務，具重大機會。Omar Shaikh團隊（含Eric Horvitz、Joon Sung Park、Diyi Yang、Michael S. Bernstein等）透過多模態模型理解非結構脈絡，開啟主動AI系統新時代，從通用模型到下步預測，預期重塑人機互動，實現真正預見性技術。論文連結：https://arxiv.org/abs/2505.10831 與 https://arxiv.org/abs/2603.05923。

## 標籤

研究論文, Agent, ComputerUse, OpenAI
