OpenMed 將十億筆精神遺傳學資料整合至 Hugging Face
OpenMed 將十億筆精神遺傳學資料整合至 Hugging Face。
OpenMed 團隊將「Psychiatric Genomics Consortium」的龐大精神遺傳學資料庫進行了標準化與整合,讓研究人員能透過單行 Python 程式碼即可存取過去繁瑣的數據集。
資料整合現況
過去研究人員需面對分散在 Figshare 上的零散檔案,經歷 wget 下載、解壓縮及長達 20 分鐘的除錯過程,現在這些問題已成為歷史:
- 涵蓋 ADHD、憂鬱症、思覺失調症、躁鬱症、PTSD、強迫症、自閉症、焦慮症、妥瑞氏症、飲食障礙等 12 個疾病群組。
- 整合 52 篇出版品及所有 GWAS 總結統計數據,總計超過 10 億筆資料列。
- 所有檔案皆已轉換為乾淨的 Apache Parquet 格式,並提供完整的資料集檢視器與 library 相容性。
技術應用優勢
透過 Hugging Face 平台,研究人員現在僅需一行程式碼即可載入特定疾病的資料集:
from datasets import load_datasetds = load_dataset("OpenMed/pgc-schizophrenia", "scz2022")
此舉大幅降低了資料處理的技術門檻,讓研究人員能將心力集中在分析而非繁瑣的資料清洗工作上。
🚨 Over 1 billion rows of psychiatric genetics data. Now on Hugging Face.
— Maziyar PANAHI (@MaziyarPanahi) April 7, 2026
ADHD. Depression. Schizophrenia. Bipolar. PTSD. OCD. Autism. Anxiety. Tourette. Eating disorders.
12 disorder groups. 52 publications. Every GWAS summary statistic from the Psychiatric Genomics… pic.twitter.com/RWJAxrc2vd
from datasets import load_dataset
— Maziyar PANAHI (@MaziyarPanahi) April 7, 2026
ds = load_dataset("OpenMed/pgc-schizophrenia", "scz2022")
That's it. Every file converted from scattered Figshare deposits into clean Apache Parquet. Working dataset viewers. Full datasets library compatibility. pic.twitter.com/571gppZXSQ
All on @huggingface under @OpenMed_AI.
— Maziyar PANAHI (@MaziyarPanahi) April 7, 2026
ADHD, anxiety, autism, bipolar, cross-disorder, eating disorders, MDD, OCD/Tourette, PTSD, schizophrenia, substance use, and more.
What analysis would you run first?
