← 返回首頁
Sakana AI
Sakana AI
@SakanaAILabs
1,839🔁 382
𝕏 (Twitter)🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

完整End to End的科學研究自動化系統正式發表在《自然》期刊,標誌著人工智慧在獨立進行學術研究方面邁出重大一步。該系統不僅能自動生成研究想法、執行實驗、撰寫論文,更重要的是有一篇完全由人工智慧生成的論文成功通過同儕審查,表明自動化科學發現已從理論轉向現實。

系統架構與運作流程

The AI Scientist 以 foundation models(基礎模型)為核心,透過四個主要階段完成End to End的科學研究流程:

  • 想法生成階段:系統在使用者指定的機器學習研究子領域中,迭代地生成高層次研究方向和假設,包括詳細的實驗計畫。
  • 實驗執行階段:支援兩種模式——有模板模式(使用人類提供的程式碼框架)和無模板模式(由系統從零開始生成程式碼),後者採用 agentic tree search 進行多階段優化,包括初步調查、超參數調整、研究議程執行和消融研究。
  • 論文撰寫階段:按照機器學習頂級會議論文格式自動填寫 LaTeX 模板各個章節,並透過 Semantic Scholar API 檢索相關文獻、驗證引用的合適性。
  • 同儕審查階段:由自動審查系統 The Automated Reviewer 評估論文品質。

自動審查系統與評估能力

The Automated Reviewer 基於神經資訊處理系統(NeurIPS)會議審查指南,由五份獨立評論和一份薈萃評論組成。研究團隊將其決策與公開的 ICLR 論文歷史資料進行對比,發現其判斷與人類審查員的一致性相當——平衡準確率達 69%,F1 分數超過 NeurIPS 2021 一致性研究中測得的人類審查員間一致性。該系統對發表年份在訓練資料截止日期(2025 年)之後的論文,準確率為 66%,顯示資料汙染影響極小。

清晰的推展規律與未來潛力

研究發現了人工智慧科學的明確推展規律:隨著基礎模型質量提升,The AI Scientist 生成的論文品質相應增加。此外,分配給每篇論文的計算量與結果品質具有強相關性,表明模型規模和推論時計算投資都扮演關鍵角色。根據論文分析,任務完成長度約每七個月翻倍,暗示許多當前的實現和除錯瓶頸可能在近期內獲得解決。

實際成就與現實限制

系統的終極測試是向真實的同儕審查流程投稿。研究團隊在國際機器學習表徵會議(ICLR)2025 年的「I Can't Believe It's Not Better(ICBINB)」工作坊提交了三篇完全由系統生成的論文。其中一篇獲得評審員平均分數 6.33(各評分:6、7、6),超過工作坊平均接受閾值,排名前 45%。若非根據預定協議因系統生成身份而撤回,該論文極可能被接受。該論文報告的是負面結果,符合工作坊強調的有趣負面結果主題。其他兩篇未達接受標準。

然而,系統仍有明顯局限性。三篇投稿中僅一篇通過,而工作坊接受率(70%)遠高於主會議(ICLR 2025 主會議為 32%),因此系統尚無法穩定達到頂級期刊標準。常見失敗模式包括生成幼稚或未充分發展的想法、實現上的程式碼錯誤、缺乏深度方法論嚴謹性、實驗執行錯誤、圖表重複、以及多種幻覺現象(如引文不準確)。

倫理考量與責任發展

論文坦誠指出潛在風險:自動化可能會加重已趨於飽和的同儕審查系統,向科學文獻中增添噪音。研究團隊主動向國際審查委員會申請批准、獲得工作坊組織者同意,並在審查過程中告知審查員部分投稿為 AI 生成,但未指明具體是哪些論文,以確保盲審。最終,團隊根據預定協議,從預接受狀態撤回了已接受的 AI 生成論文。研究團隊呼籲科學界建立明確規範,以應對 AI 生成研究的使用與發表。同時強調,若經過負責任的開發,此類自主系統可大幅加速科學發現,從疾病治療到環境保護都有潛力帶來突破性進展。