← 返回首頁
Modular
Modular
@Modular
238🔁 23
𝕏 (Twitter)🔥🔥🔥
AI 中文摘要Claude 生成
Modular 團隊最近展示了使用 Cursor 和 Claude 協助開發 GPU kernel 的實際案例。他們在單次工作階段中,將 NVIDIA 的 CUTLASS Blackwell conv2d 移植到 Mojo 語言,成果令人矚目:程式碼約 770 行、重用 90% 的矩陣乘法運算、在 B200 GPU 上的效能較 cuDNN 快 6.6 倍。所有 kernel 程式已提交至 Modular 程式庫中。 這個成果反映了人工智慧輔助程式撰寫在低階硬體開發中的實際可行性。相比傳統手工編寫 GPU kernel 的繁瑣過程,使用 AI 工具(Cursor IDE 搭配 Claude 大語言模型)能夠顯著提升開發效率。770 行的程式規模並不算小,要在一個工作階段內完成從 CUDA 到 Mojo 的完整移植並達到 6.6 倍的效能優勢,說明 AI 輔助已經能夠處理相當複雜的系統層級工作。 該專案所在的 Modular 平台是一個統一的人工智慧開發與部署生態系統,包括 MAX 框架和 Mojo 編程語言。根據 GitHub 倉庫資訊,截至 2025 年 5 月,該倉庫已包含超過 45 萬行程式碼,來自 6000 多名貢獻者,並被稱為「世界上最大的開源 CPU 和 GPU kernel 程式庫」。 Modular 的主要成果包括:Mojo 標準函式庫、MAX GPU 與 CPU kernel 實現、OpenAI 相容的推論伺服器,以及基於 Python 的模型管線圖表。平台的核心目標是抽象化硬體複雜性,讓開發者能在無需修改程式的情況下,用業界領先的 GPU 和 CPU 效能來運行主流開源模型。 2025 年以來的重大進展包括:Modular 平台 25.6 版本實現了從筆記型電腦到資料中心 GPU 的統一運算層,在 NVIDIA Blackwell(B200)和 AMD MI355X 上都取得業界領先的吞吐量。2025 年 9 月完成 2.5 億美元的融資,使公司總融資達 3.8 億美元、估值達 16 億美元。與 AMD 的戰略合作也使 Modular 平台在 MI300 和 MI325 GPU 組合上全面上市。Modular 26.1 版本則將 MAX Python API 從實驗階段升級為穩定版本,提供類似 PyTorch 的即時執行模式和 model.compile() 的生產環境支援,同時擴展 Apple 矽晶片 GPU 的支援範圍。 Mojo 語言本身也在積極演進,計畫於 2026 年上半年正式推出 1.0 版本,將帶來編譯期反射、線性型別、型別化錯誤和改進的錯誤訊息等功能。社群參與度方面,Modular 定期舉辦全球線上和線下聚會,5 月時首次舉辦 GPU Kernel Hackathon,有 100 多名工程師參與,吸引了 Modular 和 Anthropic 等公司的技術分享。此外,BentoML 在 2026 年 2 月加入 Modular,進一步擴展了開源人工智慧生態系統的規模。