AI 語音朗讀 · Edge TTS
核心創新與突破
Meta 推出 TRIBE v2(三模態腦編碼器),一款基礎模型能預測人類大腦對幾乎任何視覺或聲音刺激的反應。相較於前代的 Algonauts 2025 獲獎架構,TRIBE v2 在訓練資料規模上有質的跳躍,從僅四個人的低解析度 fMRI 錄像大幅擴展到 700 多名健康志願者超過 500 小時的 fMRI 資料。最關鍵的成果是:在無須重新訓練的情況下,模型能可靠地預測從未見過的個體的腦部反應,對電影和有聲書的預測準確度比現有方法提升了近 2 至 3 倍,解析度更提高了 70 倍。
技術能力與應用潛力
TRIBE v2 不僅是一個預測工具,更是人類神經活動的「數位孿生」。它支援零樣本預測,意即對新受試者、新語言和新任務無需額外訓練即可運作。這項能力對神經科學研究意義重大——研究人員可以快速測試有關大腦功能的假說,而無需在每項實驗都徵集人類受試者。模型被訓練處理多種媒體刺激:
- 靜態影像
- 播客和音訊內容
- 影片
- 文字
研究與臨床價值
TRIBE v2 的核心價值在於加速神經科學發現和臨床應用的進展。對於神經科學研究來說,破解人類大腦如何處理周圍世界是開放中最重要的課題之一。若在此領域取得突破,不僅能改革神經疾病的理解與治療方式(這類疾病影響數億人),也能透過神經科學原理直接指導 AI 系統開發,使人工智慧設計更符合生物認知原理。對於臨床實務,計算模擬可加速神經系統疾病治療方案的研發。
開放與推廣策略
Meta 採取開放共享的方式推動研究進展,發布研究論文、模型權重和程式碼(採用 CC BY-NC 創用授權),同時提供互動式示範網站供所有人探索。這種開放策略旨在加速神經科學研究的整體進展,期望透過社群合作解開科學和臨床突破,造福大眾。
Today we're introducing TRIBE v2 (Trimodal Brain Encoder), a foundation model trained to predict how the human brain responds to almost any sight or sound.
— AI at Meta (@AIatMeta) March 26, 2026
Building on our Algonauts 2025 award-winning architecture, TRIBE v2 draws on 500+ hours of fMRI recordings from 700+ people… pic.twitter.com/vRoVj8gP4j
Without any retraining, TRIBE v2 can reliably predict the brain responses of individuals it has never seen before, achieving a nearly 2-3x improvement over previous methods for both movies and audiobooks
— AI at Meta (@AIatMeta) March 26, 2026
We’re releasing the model, codebase, paper, and demo to help researchers… pic.twitter.com/GcqZUPC2br
