# AI 透過「GPT-5.4 Pro」解決60年懸案，數學能力躍升至研究級別

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 原作者：OpenAI (@OpenAI) · 策展與摘要：EasyVibeCoding · 平台：X (Twitter) · 熱度：🔥 · 日期：2026-04-29

> 原始來源：https://x.com/OpenAI/status/2049182118069358967

## 證據與延伸閱讀

- [gln75.com/en/blog/openai-ai-math-research](https://gln75.com/en/blog/openai-ai-math-research)

## 中文摘要

AI 透過「GPT-5.4 Pro」解決60年懸案，數學能力躍升至研究級別。

OpenAI Podcast 討論 AI 數學能力從奧林匹克水準飛躍至解決開放問題，研究員 Sebastien Bubeck 與 Ernest Ryu 強調這是奇蹟進步，將重塑科學研究，但警告過度依賴恐致淺層理解。

**研究員背景與數學奇蹟進步**

Sebastien Bubeck 擁有近20年數學與機器學習研究經驗，曾任普林斯頓教授、後轉微軟，現為 OpenAI 研究員，專注評估 AI 在困難數學問題的進展。Ernest Ryu 則為應用數學家，曾任 UCLA 數學系教授，近期加入 OpenAI，研究最佳化與機器學習理論。

兩年前無推理模型，兩年後 AI 已助菲爾茲獎得主日常工作；一年半前研討會80%數學家認為擴展 LLM 無法解決開放問題，8個月後模型達研究級別。過去四年，數學基準清楚顯示進步，從四年前 Google「Minerva」僅能給平面點座標畫線，到今模型內建理解奧林匹克問題。

**IMO 金牌與42年開放問題突破**

2025年夏天，ChatGPT 達國際數學奧林匹亞（IMO）金牌水準，相當頂尖人類高中生，但這些為「罐頭問題」，解決方案短且非新穎，非研究級別。

Ernest Ryu 測試自身最佳化理論開放問題：Nesterov 加速梯度法是否在最壞情況發散？該問題42年未解，他先花40多小時失敗，後用 ChatGPT 互動12小時（3天，每晚4小時），扮演驗證者糾正錯誤、引導新穎路徑，最終獲正確證明。他在 Twitter 宣傳，此為 AI 解決開放問題最早案例之一。

**從日常數學到99%人口適用**

2023年初 ChatGPT 無法處理高中或日常問題，如三人露營17項費用平均分攤，或跨韓國、巴黎、加州 Zoom 排程。2025年初仍辦不到，但突變後模型解決 IMO 及研究問題。

現除發明新數學的專業數學家，物理、化學家處理微分方程、微分幾何等皆可依賴 ChatGPT；99%人口數學需求全覆蓋。排程從三人簡單到複雜，模型內建工具無需外部計算器。

**Erdős 問題解決與爭議**

Paul Erdős 上世紀傑出數學家，寫1500篇論文、無固定住所、四處旅行提問，衍生「Erdős 數」（合作鏈距其論文距離，Sebastien 為2、Ernest 為3）。Thomas Bloom 網站追蹤約1000個開放 Erdős 問題，動態更新。

本月「GPT-5.4 Pro」助解60年懸案；團隊測試後，模型掃描文獻、以不同語言連接不相關領域拼圖，Mark Selke 系統試驗獲10個標記開放問題解答，引發 Twitter 爭議——誤解為全新原創，實為深度文獻搜尋。數月後，超過10個全新解答可刊組合數學頂刊，全靠 ChatGPT 與內部模型。

**數學作為完美基準與長程推理**

數學問題無歧義、易驗證，為追蹤四年進步理想基準，已達飽和。關鍵在長時間一致思考：數週、數年推理鏈若單點錯誤即毀全論點，AI 獲此屬性可推廣他域，如人類訓練數學鍛鍊邏輯。

非僅擴展 LLM，OpenAI 多項創新同時推進；模型自主推理無需工具，從秒級問題至小時、天級「AGI 時間」。

**對科學與自動研究員影響**

技術通用，非數學專屬，預期所有科學同步進步，如生物、材料科學。現為「教授-學生」互動：人類給問題、驗證，壓縮時間線（Ernest 從一個月減至12小時）。

「自動研究員」指模型自主長時工作，超越當前互動，適用長期開放問題或濕實驗。Codex 示範長 workspace：類比數學筆記，處理超50頁思考，壓縮上下文、代理式操作龐大程式庫，未來數學研究同理——每日總結筆記，數月產30頁論文。

論文「關於科學加速的早期實驗」（Early Experiments in Science Acceleration）用 GPT-5 驗證加速：數學家無程式經驗者用 Codex 做實驗，取代找研究生；非數學家用 ChatGPT 進階數學。

**人類角色與未來預測**

一年內模型思維數週、兩年數年，超越人類：找論文錯誤、提問啟發人類論文。重點非解決問題樂趣，而是理解環境、治癒疾病、建更好事物；AI 無此關懷，人類須控制引導重要問題。

數學不會消亡，反開新分支；數學家解決更難更有趣問題，過程加速、多巴胺激增，但有痛苦。AI 連通超細分領域：過去論文僅5人讀、20年後埋檔，今 AI 浮現連結，100年後重用；存取未修領域結果，加速驗證300頁證明，過濾錯誤（許多發表數學有小錯、大錯）。

**潛在危險與專業價值**

過度信任 AI 致淺層理解：人類不練驗證技能、僅求簡單解釋。非數學家用工具產10頁錯證明頻現，需專業深懂推最先進。

反對「無需科學家」論：需更多科學家，更高效強大；學術界須懂進步速度、奪回角色。AI 驗證加速：代理標記疑點，減人類負擔；社會結構變革，人類署名承責，傷聲譽防錯證。

**入門建議與數學新時代**

數學好奇者直接與 ChatGPT 聊天，從玩具問題如「浴缸裝多少 M&M」或「去年讀字數」起步，漸複雜。解釋背景求客製開放問題，模型提問優秀，變孤獨研究為社會互動。

年輕一代速趕：青少年問麥克斯韋方程組獲美解釋，但仍需艱苦工作。視覺解釋工具助後期入行者，OpenAI 新增功能。數學更互聯、信任、可速移，數學家未來30年興奮。

## 標籤

研究論文, 產業趨勢, GPT, OpenAI, GPT