AI 語音朗讀 · Edge TTS
完整End to End的科學研究自動化系統正式發表在《自然》期刊,標誌著人工智慧在獨立進行學術研究方面邁出重大一步。該系統不僅能自動生成研究想法、執行實驗、撰寫論文,更重要的是有一篇完全由人工智慧生成的論文成功通過同儕審查,表明自動化科學發現已從理論轉向現實。
系統架構與運作流程
The AI Scientist 以 foundation models(基礎模型)為核心,透過四個主要階段完成End to End的科學研究流程:
- 想法生成階段:系統在使用者指定的機器學習研究子領域中,迭代地生成高層次研究方向和假設,包括詳細的實驗計畫。
- 實驗執行階段:支援兩種模式——有模板模式(使用人類提供的程式碼框架)和無模板模式(由系統從零開始生成程式碼),後者採用 agentic tree search 進行多階段優化,包括初步調查、超參數調整、研究議程執行和消融研究。
- 論文撰寫階段:按照機器學習頂級會議論文格式自動填寫 LaTeX 模板各個章節,並透過 Semantic Scholar API 檢索相關文獻、驗證引用的合適性。
- 同儕審查階段:由自動審查系統 The Automated Reviewer 評估論文品質。
自動審查系統與評估能力
The Automated Reviewer 基於神經資訊處理系統(NeurIPS)會議審查指南,由五份獨立評論和一份薈萃評論組成。研究團隊將其決策與公開的 ICLR 論文歷史資料進行對比,發現其判斷與人類審查員的一致性相當——平衡準確率達 69%,F1 分數超過 NeurIPS 2021 一致性研究中測得的人類審查員間一致性。該系統對發表年份在訓練資料截止日期(2025 年)之後的論文,準確率為 66%,顯示資料汙染影響極小。
清晰的推展規律與未來潛力
研究發現了人工智慧科學的明確推展規律:隨著基礎模型質量提升,The AI Scientist 生成的論文品質相應增加。此外,分配給每篇論文的計算量與結果品質具有強相關性,表明模型規模和推論時計算投資都扮演關鍵角色。根據論文分析,任務完成長度約每七個月翻倍,暗示許多當前的實現和除錯瓶頸可能在近期內獲得解決。
實際成就與現實限制
系統的終極測試是向真實的同儕審查流程投稿。研究團隊在國際機器學習表徵會議(ICLR)2025 年的「I Can't Believe It's Not Better(ICBINB)」工作坊提交了三篇完全由系統生成的論文。其中一篇獲得評審員平均分數 6.33(各評分:6、7、6),超過工作坊平均接受閾值,排名前 45%。若非根據預定協議因系統生成身份而撤回,該論文極可能被接受。該論文報告的是負面結果,符合工作坊強調的有趣負面結果主題。其他兩篇未達接受標準。
然而,系統仍有明顯局限性。三篇投稿中僅一篇通過,而工作坊接受率(70%)遠高於主會議(ICLR 2025 主會議為 32%),因此系統尚無法穩定達到頂級期刊標準。常見失敗模式包括生成幼稚或未充分發展的想法、實現上的程式碼錯誤、缺乏深度方法論嚴謹性、實驗執行錯誤、圖表重複、以及多種幻覺現象(如引文不準確)。
倫理考量與責任發展
論文坦誠指出潛在風險:自動化可能會加重已趨於飽和的同儕審查系統,向科學文獻中增添噪音。研究團隊主動向國際審查委員會申請批准、獲得工作坊組織者同意,並在審查過程中告知審查員部分投稿為 AI 生成,但未指明具體是哪些論文,以確保盲審。最終,團隊根據預定協議,從預接受狀態撤回了已接受的 AI 生成論文。研究團隊呼籲科學界建立明確規範,以應對 AI 生成研究的使用與發表。同時強調,若經過負責任的開發,此類自主系統可大幅加速科學發現,從疾病治療到環境保護都有潛力帶來突破性進展。
The AI Scientist: Towards Fully Automated AI Research, Now Published in Nature
— Sakana AI (@SakanaAILabs) March 25, 2026
Nature: https://t.co/rvS3cybrOq
Blog: https://t.co/HVZGEEM3aK
When we first introduced The AI Scientist, we shared an ambitious vision of an agent powered by foundation models capable of executing… pic.twitter.com/t8RDCM1U79
One of the most exciting findings in our @Nature paper is the discovery of a clear scaling law of AI science. By using our Automated Reviewer to grade papers generated by different foundation models, we observed that as the underlying models improve, the quality of the generated… pic.twitter.com/ViEBhcdu8q
— Sakana AI (@SakanaAILabs) March 26, 2026
The full Nature paper is open access. For those interested in more details, you can read the PDF directly here: https://t.co/KHbsarYspN
— Sakana AI (@SakanaAILabs) March 26, 2026
We also released the code for both AI Scientist versions for the community to explore.
V1: https://t.co/LUD6p2mR76
V2: https://t.co/2SEMs0OgNz pic.twitter.com/vq2CftFQrl
