← 返回首頁

OpenMed 將十億筆精神遺傳學資料整合至 Hugging Face

Maziyar PANAHI
Maziyar PANAHI
@MaziyarPanahi
2,865🔁 418
𝕏 (Twitter)🔥🔥🔥
AI 中文摘要Claude 生成

OpenMed 將十億筆精神遺傳學資料整合至 Hugging Face。

OpenMed 團隊將「Psychiatric Genomics Consortium」的龐大精神遺傳學資料庫進行了標準化與整合,讓研究人員能透過單行 Python 程式碼即可存取過去繁瑣的數據集。

資料整合現況
過去研究人員需面對分散在 Figshare 上的零散檔案,經歷 wget 下載、解壓縮及長達 20 分鐘的除錯過程,現在這些問題已成為歷史:

  • 涵蓋 ADHD、憂鬱症、思覺失調症、躁鬱症、PTSD、強迫症、自閉症、焦慮症、妥瑞氏症、飲食障礙等 12 個疾病群組。
  • 整合 52 篇出版品及所有 GWAS 總結統計數據,總計超過 10 億筆資料列。
  • 所有檔案皆已轉換為乾淨的 Apache Parquet 格式,並提供完整的資料集檢視器與 library 相容性。

技術應用優勢
透過 Hugging Face 平台,研究人員現在僅需一行程式碼即可載入特定疾病的資料集:

  • from datasets import load_dataset
  • ds = load_dataset("OpenMed/pgc-schizophrenia", "scz2022")
    此舉大幅降低了資料處理的技術門檻,讓研究人員能將心力集中在分析而非繁瑣的資料清洗工作上。