# Biomni Lab 推出 GPU-as-a-tool，讓科學家以自然語言建構生物基礎模型

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 原作者：Kexin Huang (@KexinHuang5) · 策展與摘要：EasyVibeCoding · 平台：X (Twitter) · 熱度：🔥 · 日期：2026-04-16

> 原始來源：https://x.com/KexinHuang5/status/2044800483513283067

## 證據與延伸閱讀

- [Biomni Lab 推出 GPU-as-a-tool](https://phylo.bio/blog/ai-agents-build-ai-biology-models)

## 中文摘要

Biomni Lab 推出 GPU-as-a-tool，讓科學家以自然語言建構生物基礎模型。

Biomni Lab 透過新功能「GPU-as-a-tool」，讓任何科學家僅需描述資料、目標與運算預算，即可端到端完成生物基礎模型的設計、預訓練與微調，解決過去需跨領域團隊耗時數年、高成本的瓶頸。此預覽功能由 AI Agent 主導，從文獻審閱、實驗設計到程式碼生成、GPU 調度與評估全自動化，填補模型進展轉化為實際科學工作流程的障礙。

**歷史背景與產業現況**

過去兩年，人工智慧基礎模型席捲生物學領域，從 Boltz 預測目標蛋白質結構及其伴侶 BoltzGen 生成結合劑，到 AlphaGenome 將序列對應至表達量，以及 STATE 等虛擬細胞模型模擬擾動效應。Bessemer 指出，去年發布近 400 個此類模型，成為藥物發現與開發的首選工具，甚至是濕實驗前置步驟。然而，這些模型的適應性仍受限：科學家欲在專有資料集上微調、調整至新檢測或特定物種/細胞類型，需同時精通深度學習、生物學與分散式系統，僅少數專家能端到端執行，形成嚴重瓶頸。

**核心功能與三種模式**

Biomni Lab 的預覽功能涵蓋三種模式，共享共通 Agent 迴圈，讓使用者以自然語言驅動全生命週期：

- **Finetune 模式**：適應既有模型，選擇全微調、LoRA 或適配器策略，準備資料、調優超參數並評估效能。
- **Pre-train 模式**：從頭建模，處理架構設計、分散式訓練與 GPU 叢集優化。
- **Design 模式**：從任務描述出發，調查既有方法、提案候選架構、實作並迭代，甚至創造全新模型設計。

此功能嵌入 Biomni Lab 環境，讓模型建構無縫連結研究工作流程，使用者可「詢問模型」直接辨識並優先排序相關生物洞見。

**實際示範與量化成果**

透過影片與真實生物任務驗證，從自然語言提示端到端執行，展現顯著效能提升：

- **調控基因組學**：微調 Borzoi 于 365K lentiMPRA 調控元件（橫跨 K562、HepG2、WTC11 三細胞類型），微調模型整體 Pearson r=0.837，比隨機初始化提升 +0.285。
- **單細胞擾動預測**：微調 scGPT 於 Arc Virtual Cell Challenge 的 H1 hESC CRISPRi 資料，19 分鐘內將零樣本模型（DES=-0.75，負相關）轉為正確捕捉 100 個測試條件擾動方向（DES=+0.41），MAE 從 29.6 降 40 倍至 0.72。
- **蛋白質亞細胞定位**：微調 ESM2-8M 于 DeepLoc-1.0，5 個 epoch 內從 12% 準確率升至 71.7%（10 個區室類別），在外泌體、質體、細胞核、粒線體等代表性類別達 F1 分數 0.79–0.88，失敗集中於訓練資料佔比 <3% 的三稀有類別。一提示即執行 Integrated Gradients 歸因分析，於 35 蛋白揭露生物學一致發現：N-端訊號肽驅動質體/外泌體預測、K/R 富集 NLS 基序主導細胞核、跨膜域特徵指向細胞膜，將模型轉為機制假說。
- **蛋白質語言模型預訓練**：從頭重現架構（6 層、320 隱藏維度、rotary PE），於 UniRef50 的 41.9 億 token 以 233K token/sec 訓練於 A100。
- **新型 ADMET 模型**：建構 MolMTNet（70M 參數，多任務涵蓋 TDC 22 端點），91 分鐘內超越 TDC 排行榜第一於 CYP3A4 基質預測，並於 HIA、DILI、BBB 僅落後頂尖模型個位數。

**技術實現：GPU-as-a-tool**

此功能核心為「GPU-as-a-tool」，讓 Agent 動態配置並管理運算資源，從單 GPU 快速微調至多節點叢集大規模預訓練，撰寫並執行訓練腳本、監控進度並自動迭代。所有實驗於 Biomni Lab 基礎設施內運行，確保結果具可重現性與完整追蹤：程式碼、資料與輸出皆版本化，每結果綁定來源出處。新 Agent 能力專為生物基礎模型建構/適應而優化。

**整合優勢與 lab-in-the-loop**

嵌入 Biomni Lab，讓單一提示串聯文獻審閱、資料彙整與模型訓練，輸出直接饋入下游分析如變異優先排序或候選排名。Agent 維持完整脈絡，可合併公開/專有資料、比較多模型並部署最佳者，形成統一工作流程。

特別興奮的是「lab-in-the-loop」：科學家設計模型、生成預測、解釋結果後，直接發送至濕實驗；新結果回饋後，Agent 即於新資料上重訓，提升下一輪效能，實現閉環科學。

**限制與未來改進**

儘管對讓尖端 AI 模型訓練更易及於科學家深感興奮，此僅為早期預覽，預訓練與微調仍需極高專業知識，盼 AI 研究者提供回饋。長期目標是任何人皆可透過 Agent 掌握此能力，但目前需強化：

- 完全新型模型架構創造
- 高效超參數優化/迭代
- 主動學習調度
- 訓練資料混合與策展
- 模型分享與版本化
- GPU 叢集資源分配

歡迎技術與非技術使用者回饋優先順序。基礎模型雖強大且快速進化，但多數科學家因基礎設施與工程複雜無法適應自家資料；Biomni Lab 移除此障礙，讓結構生物學家（健身資料集）、遺傳學家（MPRA 資料）或藥理學家（篩選結果）僅用自然語言建模，無需轉職機器學習工程師。

**Beta 測試招募**

現尋求 beta 測試者，早鳥存取連結：https://forms.gle/1yhCP6Vrc12DaS4q6  
詳閱機會與限制：https://phylo.bio/blog/ai-agents-build-ai-biology-models  
@phylo_bio

## 標籤

Agent, 新產品, AIGC, Biomni Lab