← 返回首頁

Biomni Lab 推出 GPU-as-a-tool,讓科學家以自然語言建構生物基礎模型

Kexin Huang
Kexin Huang
@KexinHuang5
24🔁 1
𝕏 (Twitter)🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

Biomni Lab 推出 GPU-as-a-tool,讓科學家以自然語言建構生物基礎模型。

Biomni Lab 透過新功能「GPU-as-a-tool」,讓任何科學家僅需描述資料、目標與運算預算,即可端到端完成生物基礎模型的設計、預訓練與微調,解決過去需跨領域團隊耗時數年、高成本的瓶頸。此預覽功能由 AI Agent 主導,從文獻審閱、實驗設計到程式碼生成、GPU 調度與評估全自動化,填補模型進展轉化為實際科學工作流程的障礙。

歷史背景與產業現況

過去兩年,人工智慧基礎模型席捲生物學領域,從 Boltz 預測目標蛋白質結構及其伴侶 BoltzGen 生成結合劑,到 AlphaGenome 將序列對應至表達量,以及 STATE 等虛擬細胞模型模擬擾動效應。Bessemer 指出,去年發布近 400 個此類模型,成為藥物發現與開發的首選工具,甚至是濕實驗前置步驟。然而,這些模型的適應性仍受限:科學家欲在專有資料集上微調、調整至新檢測或特定物種/細胞類型,需同時精通深度學習、生物學與分散式系統,僅少數專家能端到端執行,形成嚴重瓶頸。

核心功能與三種模式

Biomni Lab 的預覽功能涵蓋三種模式,共享共通 Agent 迴圈,讓使用者以自然語言驅動全生命週期:

  • Finetune 模式:適應既有模型,選擇全微調、LoRA 或適配器策略,準備資料、調優超參數並評估效能。
  • Pre-train 模式:從頭建模,處理架構設計、分散式訓練與 GPU 叢集優化。
  • Design 模式:從任務描述出發,調查既有方法、提案候選架構、實作並迭代,甚至創造全新模型設計。

此功能嵌入 Biomni Lab 環境,讓模型建構無縫連結研究工作流程,使用者可「詢問模型」直接辨識並優先排序相關生物洞見。

實際示範與量化成果

透過影片與真實生物任務驗證,從自然語言提示端到端執行,展現顯著效能提升:

  • 調控基因組學:微調 Borzoi 于 365K lentiMPRA 調控元件(橫跨 K562、HepG2、WTC11 三細胞類型),微調模型整體 Pearson r=0.837,比隨機初始化提升 +0.285。
  • 單細胞擾動預測:微調 scGPT 於 Arc Virtual Cell Challenge 的 H1 hESC CRISPRi 資料,19 分鐘內將零樣本模型(DES=-0.75,負相關)轉為正確捕捉 100 個測試條件擾動方向(DES=+0.41),MAE 從 29.6 降 40 倍至 0.72。
  • 蛋白質亞細胞定位:微調 ESM2-8M 于 DeepLoc-1.0,5 個 epoch 內從 12% 準確率升至 71.7%(10 個區室類別),在外泌體、質體、細胞核、粒線體等代表性類別達 F1 分數 0.79–0.88,失敗集中於訓練資料佔比 <3% 的三稀有類別。一提示即執行 Integrated Gradients 歸因分析,於 35 蛋白揭露生物學一致發現:N-端訊號肽驅動質體/外泌體預測、K/R 富集 NLS 基序主導細胞核、跨膜域特徵指向細胞膜,將模型轉為機制假說。
  • 蛋白質語言模型預訓練:從頭重現架構(6 層、320 隱藏維度、rotary PE),於 UniRef50 的 41.9 億 token 以 233K token/sec 訓練於 A100。
  • 新型 ADMET 模型:建構 MolMTNet(70M 參數,多任務涵蓋 TDC 22 端點),91 分鐘內超越 TDC 排行榜第一於 CYP3A4 基質預測,並於 HIA、DILI、BBB 僅落後頂尖模型個位數。

技術實現:GPU-as-a-tool

此功能核心為「GPU-as-a-tool」,讓 Agent 動態配置並管理運算資源,從單 GPU 快速微調至多節點叢集大規模預訓練,撰寫並執行訓練腳本、監控進度並自動迭代。所有實驗於 Biomni Lab 基礎設施內運行,確保結果具可重現性與完整追蹤:程式碼、資料與輸出皆版本化,每結果綁定來源出處。新 Agent 能力專為生物基礎模型建構/適應而優化。

整合優勢與 lab-in-the-loop

嵌入 Biomni Lab,讓單一提示串聯文獻審閱、資料彙整與模型訓練,輸出直接饋入下游分析如變異優先排序或候選排名。Agent 維持完整脈絡,可合併公開/專有資料、比較多模型並部署最佳者,形成統一工作流程。

特別興奮的是「lab-in-the-loop」:科學家設計模型、生成預測、解釋結果後,直接發送至濕實驗;新結果回饋後,Agent 即於新資料上重訓,提升下一輪效能,實現閉環科學。

限制與未來改進

儘管對讓尖端 AI 模型訓練更易及於科學家深感興奮,此僅為早期預覽,預訓練與微調仍需極高專業知識,盼 AI 研究者提供回饋。長期目標是任何人皆可透過 Agent 掌握此能力,但目前需強化:

  • 完全新型模型架構創造
  • 高效超參數優化/迭代
  • 主動學習調度
  • 訓練資料混合與策展
  • 模型分享與版本化
  • GPU 叢集資源分配

歡迎技術與非技術使用者回饋優先順序。基礎模型雖強大且快速進化,但多數科學家因基礎設施與工程複雜無法適應自家資料;Biomni Lab 移除此障礙,讓結構生物學家(健身資料集)、遺傳學家(MPRA 資料)或藥理學家(篩選結果)僅用自然語言建模,無需轉職機器學習工程師。

Beta 測試招募

現尋求 beta 測試者,早鳥存取連結:https://forms.gle/1yhCP6Vrc12DaS4q6
詳閱機會與限制:https://phylo.bio/blog/ai-agents-build-ai-biology-models
@phylo_bio