← 返回首頁

OpenAI研究預覽引發熱議,Omar Shaikh團隊論文提出從電腦互動學習通用使用者模型(GUM)

Omar Shaikh
Omar Shaikh
@oshaikh13
402🔁 38
𝕏 (Twitter)🔥🔥🔥
AI 中文摘要Claude 生成

OpenAI研究預覽引發熱議,Omar Shaikh團隊論文提出從電腦互動學習通用使用者模型(GUM),實現預測性AI助手。

Omar Shaikh對OpenAI的研究預覽興奮不已,強調超越聊天式的電腦互動學習,將解鎖大量創新互動;他分享兩篇論文:2025年5月16日(最後修訂2025年9月21日)的「Creating General User Models from Computer Use」與2026年3月6日的「Learning Next Action Predictors from Human-Computer Interaction」。

GUM架構創新

現有人機互動(HCI)長期憧憬理解使用者偏好、習慣與日常動作時機與目的的技術,但當前使用者模型碎片化、侷限於特定應用,且缺乏彈性推理能力。GUM(General User Model)透過觀察使用者任何電腦互動,建構通用使用者模型,輸入為非結構化觀察(如裝置螢幕截圖),輸出信心加權的命題,捕捉使用者知識與偏好。

  • GUM可從與朋友訊息推斷使用者正準備參加婚禮。
  • 觀察多次停滯編輯與轉讀相關工作,即識別使用者正為合作者回饋掙扎。
    GUM架構從多模態觀察推斷新命題、檢索相關命題提供脈絡,並持續修訂既有命題。

GUM應用廣度

GUM展現多樣應用,強化聊天助理的脈絡、管理作業系統通知選擇性呈現重要資訊,並讓互動Agent跨應用適應偏好。團隊實作主動助理「GUMBOs」,利用GUM發現並執行使用者有益建議。評估顯示,GUM對使用者的推斷具校準性與準確性,基於GUM的助理能主動辨識並執行使用者未明確要求的動作,實現HCI長期願景與全新預測需求系統。

LongNAP預測下步

後續論文聚焦「next action prediction (NAP)」,即從使用者多模態電腦互動序列(螢幕截圖、點擊、感測器資料)預測下一個動作,需超越提示稀疏訊號,推理完整脈絡。團隊使用視覺語言模型標註縱向自然電腦使用資料,釋出開源標註管線於私有基礎設施,標註20位使用者一個月連續手機使用逾36萬動作,總計1,800小時螢幕時間。

LongNAP模型設計

LongNAP結合參數與脈絡學習,推理長互動歷史;經政策梯度方法訓練,給定脈絡產生使用者特定推理軌跡、從過去軌跡庫檢索相關軌跡,並脈絡內應用檢索軌跡預測未來動作。以LLM-as-judge評估(0-1與真值相似度),LongNAP於保留資料超越監督微調(提升79%)與提示基準(提升39%),並跨個體泛化至未見使用者。儘管下步動作空間無限(數千可能),LongNAP預測軌跡中17.1%高度契合使用者真實行為(LLM-judge分數≥0.5),過濾高信心預測時升至26%。

研究影響與機會

這些工作批判現有使用者模型的侷限,證明從完整使用者行為脈絡學習預測需求已成可行任務,具重大機會。Omar Shaikh團隊(含Eric Horvitz、Joon Sung Park、Diyi Yang、Michael S. Bernstein等)透過多模態模型理解非結構脈絡,開啟主動AI系統新時代,從通用模型到下步預測,預期重塑人機互動,實現真正預見性技術。論文連結:https://arxiv.org/abs/2505.10831https://arxiv.org/abs/2603.05923。