# 策展 · X (Twitter) 🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：OpenAI (@OpenAI) · 平台：X (Twitter) · 日期：2026-06-17

> 原始來源：https://x.com/OpenAI/status/2066934692641956231

## 中文摘要

OpenAI 透過 Evals 革新精準預測大型語言模型發展。

**評估機制的重要性**
OpenAI 的前沿評估團隊負責人 Tejal Patwardhan 在與 Andrew Mayne 的對談中指出，隨著傳統基準測試（benchmarks）面臨飽和，甚至出現針對測試題目進行「刷榜」或「作弊」的現象，開發更具鑑別力的評估方法已成為當務之急。評估不僅是衡量模型能力的手段，更是預測未來技術走向的核心依據。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1781669119656-drpzsjc3.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/9e596a88b606ee50.jpg" controls playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>

**評估策略的轉向**
針對模型評估的未來方向，團隊強調了以下幾個關鍵面向：
- 超越靜態測試：傳統的選擇題式基準測試已不足以反映真實的推理能力，必須轉向更動態、更具挑戰性的評估情境。
- 應對「刷榜」現象：針對模型針對特定測試集進行優化（gaming the benchmarks）的問題，評估機制必須具備更高的抗干擾性，以確保測試結果能真實反映模型的泛化能力。
- 預測模型進度：評估的目的不僅是給予分數，更在於建立一套能有效預測模型在複雜任務中表現的指標，從而引導研發資源的投入方向。

**核心觀點與反思**
OpenAI 對於現行評估體系的批判態度明確，認為若無法建立更嚴謹的評估標準，技術進步的衡量將失去意義。Tejal Patwardhan 強調，模型必須在更具實用性與複雜度的任務中接受檢驗，而非僅僅在已知的測試資料集上取得高分。這反映了該團隊對於大型語言模型發展過程中，如何避免「指標虛胖」並回歸技術本質的深刻反思。

## 媒體內容

**逐字稿**

- `00:00` 哈囉，我是 Andrew Mayne，歡迎收聽 OpenAI 的 Podcast。（Hello, I'm Andrew Mayne, and welcome to the OpenAI podcast.）
- `00:03` 在今天的節目中，我們邀請到研究負責人 Tejal Patwarden，（On today's episode, we're talking to the research lead,）
- `00:05` 來談談隨著舊有的基準測試逐漸飽和，我們需要建立端到端的評估機制。（Tejal Patwarden, about the need to build front-to-e valves）
- `00:08` 這通常不太好。基準測試本身是有缺陷的。（as old benchmarks get saturated.）
- `00:11` 我們該如何讓這些模型在人們的實際工作中發揮作用呢？（Generally bad. Benchmaxing is bad.）
- `00:13` 我們當時真的很緊張，因為我們覺得，（How can we make these models useful for people in their real work?）
- `00:16` 人類的基準表現門檻相當高。（We were really nervous because we were like,）
- `00:17` 我們不知道模型是否能超越它。（this human baseline is kind of hard.）
- `00:19` 但我們永遠不該低估模型的能力。（We don't know if the model is going to beat it.）
- `00:20` Tejal，我有一個問題。（But we should never underestimate the model.）
- `00:24` 你是怎麼走到今天這一步的？（Tejal, I have a question.）
- `00:26` 是什麼讓你加入了 OpenAI？（How did you end up where you were?）
- `00:27` 喔，我以為我們不會從這個問題開始。（What brought you into OpenAI?）
- `00:28` Tejal，我有一個問題想問你。（Oh, I thought we weren't going to start with this.）
- `00:31` 你想從什麼話題開始呢？（Tejal, I have a question for you.）
- `00:32` 我們可以從你剛加入 OpenAI 時做的事開始聊起嗎？（What would you like to start with?）
- `00:33` 然後你可以再回溯過去。（Can we start with, like, tell us what you did when you started OpenAI,）
- `00:37` 你不想聊聊你早期的經歷嗎？（and then you can work backwards.）
- `00:38` 不想。我在 OpenAI 成長。（Don't you want to talk about your early days?）
- `00:40` 好吧。（No. I grew up at OpenAI.）
- `00:42` 跟我聊聊你在人工智慧領域，（Okay.）
- `00:45` 在 OpenAI 內部的這段旅程吧。（Tell me a bit about your journey here working inside artificial intelligence,）
- `00:49` 我是在 2023 年秋季加入 OpenAI 的，（inside OpenAI.）
- `00:50` 那剛好是在 ChatGPT 發布之後，（So I joined OpenAI in fall 23,）
- `00:53` GPT-4 也已經問世，（and it was right after ChatGPT had come out,）
- `00:55` 而且 OpenAI 剛成立了超級對齊團隊。（GPT-4 was out,）
- `00:57` 我加入的是當時剛起步的準備度團隊，（and OpenAI had started its super alignment team.）
- `00:59` 當時我們開始觀察，（And I joined for the preparedness team that was getting started）
- `01:03` 這些模型的能力變得多麼強大，（as we were starting to get,）
- `01:04` 並開始思考，你知道的，（look at how capable these models were becoming）
- `01:06` 下一代模型會是什麼樣子？（and think about, you know,）
- `01:07` 當時的情況非常令人興奮，（what would the next generation of models look like?）
- `01:09` 因為在我加入後不久，（And at the time, it was extremely exciting）
- `01:11` 推理模型的一些早期成果（because right after I joined was when）
- `01:14` 就開始顯現出來了。（some of the early results for the reasoning models）
- `01:16` 我們當時在思考，你知道的，（had started to pick up.）
- `01:17` 如果這些模型真的大獲成功，（And we were thinking about, you know,）
- `01:20` 未來的功能會是什麼樣子？（if these models really take off,）
- `01:21` 我們該如何為那個未來做好準備？（what will the future of capabilities look like?）
- `01:24` 所以我們做了大量的工作，例如：（And how can we be prepared for that future?）
- `01:27` 威脅建模，以及我們應該進行哪些評估？（And so we did a whole bunch of work on, like,）
- `01:30` 我們該如何思考這類模型的發布？（threat modeling and, like, what evals should we be running?）
- `01:32` 那是一個非常令人興奮的加入時機。（How do we think about releasing a model like this?）
- `01:34` 是什麼讓你對這個領域感興趣？（And it's a very exciting time to join.）
- `01:36` 是的。對我來說，評估非常令人興奮，（What got you interested in this area?）
- `01:38` 因為它們是一種衡量和理解的方式，（Yeah. Well, to me, evals are really exciting）
- `01:40` 能讓我們知道模型能做什麼，（because they're a way to sort of measure and understand）
- `01:42` 並在進展發生之前，（what our models can do）
- `01:43` 就能預先看到趨勢。（and see progress, you know,）
- `01:46` 在它發生之前的那種狀態。（sort of before it tends to happen.）
- `01:47` 就像有一個術語叫做「能力懸置」（capability overhang），（Like, there's this term called capability overhang,）
- `01:50` 這指的是模型在人們真正採用並將其應用於這些能力之前，（which is this idea that the models will be capable of things）
- `01:53` 就已經具備了這些能力。（long before people actually adopt them）
- `01:55` 這就是這個概念。（and use them for those capabilities.）
- `01:57` 就像，你知道的，（Like, there, you know,）
- `01:58` 在能力準備好之前，可能就已經存在文化、法律或監管方面的障礙，（there might be cultural or legal or regulatory barriers）
- `02:00` 阻礙了這些能力的應用。（towards using a capability even before it's ready.）
- `02:03` 因此，作為一個能夠協助開發並透過評估（evals）來衡量我們模型的人，（And so being someone who can, like,）
- `02:05` 這能讓你真正理解這項技術能做到什麼，（help develop and measure our models via evals,）
- `02:08` 並在未來發生之前先預見它，（it helps you really understand what this technology can do）
- `02:11` 這非常有趣。（and sort of see the future before it happens,）
- `02:13` 而且我也認為這很重要，（which is very interesting.）
- `02:15` 因為這有助於讓世界為即將發生的事情做好準備。（And I also think it's important）
- `02:16` 就像，我剛開始在這裡工作時，（because it can help sort of ready the world）
- `02:18` 我之所以對參與某些準備度評估（preparedness evals）感到非常興奮，（for what's happening.）
- `02:19` 部分原因是我認為這些模型變得非常強大，（Like, part of, when I originally started here,）
- `02:22` 而我現實生活中的許多朋友，（part of why I was really excited to work on）
- `02:24` 並沒有真正理解這些模型很快會變得多麼強大，（some of the preparedness evals）
- `02:25` 因為他們看著 ChatGPT 的輸出，（was because I thought these models）
- `02:27` 會覺得：「沒錯，它在產生幻覺，而且沒那麼聰明，讀起來就像 AI 垃圾內容。」（were getting very capable）
- `02:28` 而我想說的是，那是現在的情況。（and it felt like a lot of my friends,）
- `02:30` 但問題在於斜率（slope）。（like, in my real life）
- `02:32` 如果斜率非常陡峭，（didn't really understand）
- `02:33` 那麼變化發生的速度可能會比預期快得多。（how powerful these models would soon become）
- `02:35` 所以我認為我們能提供的最大服務之一，（because they'd look at, you know,）
- `02:37` 就是衡量並與世界分享進展的樣貌，（a chat GPT output and be like,）
- `02:38` 特別是因為在人們真正理解並親身感受到模型的能力之前，（yeah, it's hallucinating）
- `02:39` 往往存在這種「能力懸置」。（and, like, it's kind of not that smart）
- `02:41` 所以這就是為什麼我認為這一切都非常重要的部分原因。（and kind of reads like AI slop.）
- `02:42` 推理（Reasoning）是一個非常令人興奮的時刻，（And it's like, well, that's now.）
- `02:44` 但對世界上大多數人來說，（But, like, the question is the slope.）
- `02:45` 直到一年後他們才發現這件事。（Like, if the slope is very high,）
- `02:47` 但對你來說，突然理解這一切是什麼感覺？（then, you know, change might be happening）
- `02:49` 比預期中快得多。（much faster than one would expect.）
- `02:51` 所以我認為我們能做的（And so I think one of the greatest services）
- `02:53` 最棒的服務之一（that we can do）
- `02:54` 就是去衡量並與世界分享（is sort of measure and share with the world）
- `02:56` 進展看起來是什麼樣子，（what progress looks like,）
- `02:58` 特別是因為通常存在著（especially because there's often）
- `02:59` 這種能力過剩（capability overhang），（this capability overhang）
- `03:00` 在人們真正理解（before people really understand）
- `03:02` 並在模型本身感受到它之前。（and feel that in the models themselves.）
- `03:06` 所以這就是為什麼（So that's part of why）
- `03:08` 我認為這一切都非常重要。（I think all of this is very important.）
- `03:10` 推理是一個如此令人興奮的時刻，（Reasoning was such an exciting moment）
- `03:11` 而對於世界上大多數人來說，（and for most of the world）
- `03:13` 直到，你知道，（that didn't happen until, you know,）
- `03:15` 一年後他們才發現這件事。（a year later that they found out about this.）
- `03:17` 但對你來說，那種感覺是什麼樣的？（But what was that like for you）
- `03:18` 突然間理解到（to all of a sudden understand）
- `03:19` 如果給予模型（that if you gave the models）
- `03:20` 更長的思考時間，（a longer time to think about things,）
- `03:21` 你就能得到更好的結果，（you got better results）
- `03:22` 即便模型規模並沒有變大？（even though the size hadn't gotten bigger?）
- `03:25` 那真是一段有趣的時光。（That was a really fun time.）
- `03:26` 我的意思是，在一些早期的實驗中，（I mean, so in some of the early experiments,）
- `03:29` 我們現在已經討論過這些了，（which we've talked about now,）
- `03:31` 就像模型僅僅是（it's like the model is trained）
- `03:32` 透過數學進行訓練。（really just on math.）
- `03:33` 我記得當時有（And I remember there was）
- `03:35` 一組實驗，（this set of experiments）
- `03:36` Nat McAleese 當時說，（where Nat McAleese was like,）
- `03:38` 嘿，這個模型雖然是透過數學訓練的，（hey, the model is trained on math,）
- `03:39` 但如果你用 GPQA 來評估它，（but if you eval it on GPQA,）
- `03:42` 也就是那個包含（which was this benchmark）
- `03:43` 生物學、化學（with like biology and chemistry）
- `03:44` 和物理學問題的基準測試，（and physics problems,）
- `03:46` 模型的表現非常好。（the model is doing really well.）
- `03:47` 這非常有趣，（This is very interesting）
- `03:48` 更聰明的模型確實聰明得多。（and smarter models are much smarter.）
- `03:50` 他當時整理出了一份預測，（And he had put together this forecast）
- `03:51` 上面寫著（that at the time it said that）
- `03:54` 如果進展持續下去，（if, you know, progress kept going）
- `03:55` 六個月內，（within six months,）
- `03:56` 我們僅透過數學訓練，就能在科學領域達到人類水準的表現。（we'd have human level performance on science）
- `03:58` 我們當時心想，天啊，這太瘋狂了。（from just training on math.）
- `03:59` 而且在當時，（And we were like, oh my gosh, that's crazy.）
- `04:01` 這項研究是極度保密的。（And at the time,）
- `04:03` 我們當時就像是，（this was extremely locked down.）
- `04:04` 我們設法透過 curl（It was like,）
- `04:04` 來查看一些模型的輸出。（we kind of found our way to like curl）
- `04:06` 我們當時驚呼，哇，（to be able to see some model outputs.）
- `04:08` 這是我見過（And we were like, wow,）
- `04:09` 最聰明的東西之一。（this is like one of the smartest things）
- `04:10` 我從未見過模型像這樣進行推理。（like I've ever seen.）
- `04:11` 這簡直就像是，（Like I've never seen a model reason）
- `04:13` 如果這成為一種（like this before.）
- `04:14` 持續擴展的典範，（It was just like,）
- `04:15` 但後來我們回頭看，（if this becomes a paradigm）
- `04:17` 我們心想，（that continues to scale,）
- `04:18` 你知道，GPQA 就像是，（but then we just looked back）
- `04:19` 你知道，博士等級的生物學、（and we were like,）
- `04:19` 化學和物理學。（you know, GPQA was like,）
- `04:22` 我們當時心想，（you know, PhD level biology,）
- `04:23` 天啊，那是什麼？（chemistry and physics.）
- `04:24` 我們真的需要專業等級的測試。（And we were like,）
- `04:24` 於是我們就不斷改變（God, that's what is that?）
- `04:26` 評估的標準。（We really need professional level.）
- `04:27` 我們只是不斷地改變（And we just like kept changing）
- `04:28` 衡量標準的賭注。（the stakes of what counted.）
- `04:30` 但沒錯，（But yeah,）
- `04:31` 這真的很酷。（it was very cool.）
- `04:32` 我記得在早期，（I remember early on）
- `04:33` 當 AP 生物學考試剛出現時，（when AP bio was just,）
- `04:36` 那是一個基準，（that was the benchmark）
- `04:36` 用來測試模型（to try to see if the model）
- `04:37` 是否能做到那樣。（could do that.）
- `04:38` 但有趣的是，（But what's interesting）
- `04:39` 正如你所提到的，（as you brought this up）
- `04:40` 很多從 OpenAI 出來的東西（is that a lot of stuff）
- `04:42` 都聚焦在數學上。（that comes out from open）
- `04:43` 數學一直很有用，（is math focused.）
- `04:44` 因為在某些方面，（Math has been useful）
- `04:44` 它更具客觀的可驗證性。（because it's more objectively）
- `04:46` 所以我們訓練時使用的一些早期問題，（verifiable in some ways.）
- `04:47` 只是因為在數學上進行強化學習 (RL)（So some of the earlier problems）
- `04:48` 並擴展推理範式（that we trained on,）
- `04:49` 會比較容易。（it was just easier to do RL）
- `04:51` 而且，（and scale up the reasoning paradigm）
- `04:52` 數學在各方面也很有用。（on math.）
- `04:54` 你知道，（And so,）
- `04:54` 它是核心之一，（and math is also useful）
- `04:55` 你知道，（in various ways.）
- `04:56` 科學的類型，（You know,）
- `04:56` 但在許多方面，（it's like one of the core,）
- `04:58` 它只是剛好（you know,）
- `04:58` 成為我們關注的對象，（types of science,）
- `04:59` 但它不一定是（but also in many ways,）
- `05:00` 我們在研究中真正想要（it's just happened）
- `05:01` 專注的最終產物。（by coincidence to be a thing）
- `05:03` 就像我們現在意識到，（that we focused on,）
- `05:04` 好吧，（but it's not necessarily）
- `05:05` 如果我們能對數學做到這一點，（the end product）
- `05:06` 我們能否將其擴展到（of what we even want）
- `05:06` 其他類型的科學，（to focus on in research.）
- `05:08` 用於專業工作，（Like we're now realizing,）
- `05:09` 用於，（okay,）
- `05:09` 你知道，（if we can do this for math,）
- `05:10` 對人類個人層面有用的能力。（can we scale this up）
- `05:11` 所以我認為數學（for other types of science,）
- `05:12` 更像是一個證明點，（for professional work,）
- `05:14` 而不是最終目標。（for,）
- `05:14` 但確實看起來，（you know,）
- `05:14` 就像你說的那樣。（for capabilities that are useful）
- `05:16` 對人類而言，在個人層面上。（to humans on a personal level.）
- `05:18` 所以我認為數學（And so I think math）
- `05:19` 更像是證明點，（is more like the proof point）
- `05:20` 而不是最終目標。（versus like the end goal.）
- `05:21` 但確實看起來，（But it does seem,）
- `05:22` 就像你說的那樣，（like you said though,）
- `05:23` 如果某個東西能夠（that if something is able）
- `05:24` 進行長時間的思考，（to think for a long time,）
- `05:25` 將事物拆解（break something down）
- `05:26` 成各個步驟（into steps）
- `05:27` 並深入思考這些步驟，（and think through them）
- `05:27` 就像你在處理（as you have to do）
- `05:28` 真正複雜的（for really complex）
- `05:29` 數學問題時必須做的那樣，（mathematical problems,）
- `05:30` 這確實是可以通用的。（it does just carry over.）
- `05:31` 嗯，（Well,）
- `05:31` 這是一個很大的爭論。（this is a big debate.）
- `05:33` 所以，其中一些部分（So like some of it）
- `05:34` 絕對是可以通用的，（definitely carries over,）
- `05:36` 比如推理的（like the general idea）
- `05:37` 通用概念是有用的，（of reasoning can be useful,）
- `05:38` 但同時也可能存在（but then also there could be）
- `05:39` 一些特定領域的 skill（some domain specific skills）
- `05:41` 或工具（or tools）
- `05:41` 或推理類型，（or types of reasoning）
- `05:42` 是你需要在（that you would need）
- `05:43` 不同領域中具備的。（in different domains.）
- `05:44` 例如，（Like for example,）
- `05:45` 對於程式開發來說，（for coding,）
- `05:46` 你需要能夠（you need to be able）
- `05:47` 實際撰寫（to actually write）
- `05:47` 並執行程式碼，（and execute code）
- `05:48` 還要測試程式碼，（and test code）
- `05:49` 如果你想要擴展（if you want to scale up）
- `05:49` 一個程式開發 Agent。（a coding agent.）
- `05:50` 所以我們（And so something）
- `05:51` 思考了很多關於（we've thought about a lot）
- `05:52` 評估（evals）（in terms of both evals）
- `05:53` 以及訓練的問題，（and then also training）
- `05:54` 那就是我們如何確保（is how do we make sure）
- `05:56` 我們也賦予模型（we also give the model）
- `05:57` 它所需要的 skill、工具（the skills and tools）
- `05:58` 以及功能，（and affordances）
- `05:59` 讓它能夠（that it would need）
- `06:00` 在該特定領域中（to reason in that）
- `06:01` 進行推理。（particular domain.）
- `06:02` 數學帶來的一些好處（And some of the benefits）
- `06:02` 會轉移過來，（of math will translate）
- `06:03` 但同時你可能也需要（and then also you might need）
- `06:04` 一些特定領域的輔助架構，（some domain specific scaffolding）
- `06:06` 才能真正發揮出（to really pull out）
- `06:07` 它的全部能力，（its full abilities,）
- `06:08` 就像是，（like kind of,）
- `06:08` 你知道，（you know,）
- `06:08` 就像一般的普通高中（like a general high school）
- `06:10` 或博雅教育一樣。（or liberal arts education）
- `06:11` 接著就像是（and then like）
- `06:12` 一種專業化的教育。（a specialized education.）
- `06:14` 推理模型（Reasoning models）
- `06:15` 是一個非常（were just a very）
- `06:16` 有趣的時刻（interesting moment）
- `06:17` 因為我認為它改變了（because I think it changed）
- `06:18` 我們思考方式中的（a lot of the ways）
- `06:18` 許多層面（we thought about）
- `06:19` 關於什麼是可能的（what was possible）
- `06:20` 即使只是（even with just）
- `06:20` 一定數量的（a certain amount）
- `06:21` 運算資源（of compute）
- `06:21` 如果你讓模型（if you let a model）
- `06:22` 思考得更久（think longer）
- `06:23` 並給予模型（and you gave the model）
- `06:24` 機會（the opportunity）
- `06:25` 去想出（to just come up）
- `06:26` 更複雜的（with more complex）
- `06:27` 答案。（answers to this.）
- `06:28` 在 O1 上（Were there any）
- `06:29` 有沒有發生什麼（interesting things）
- `06:29` 有趣的事情（that happened）
- `06:30` 讓你感到驚訝？（with O1）
- `06:30` 所以 O1 的（that surprised you?）
- `06:31` 發布過程（So the O1）
- `06:32` 非常令人興奮。（release process）
- `06:33` 我們當時（was very exciting.）
- `06:35` 思考著（We were sort of）
- `06:35` 推理範式（thinking about）
- `06:36` 已經很長一段時間了（the reasoning paradigm）
- `06:37` 而且當時有（for a very long time）
- `06:38` 一些人擔心（and there were）
- `06:40` 要確保（people that were worried）
- `06:42` 我們沒有（about making sure）
- `06:42` 太早發布它（we didn't release it）
- `06:43` 僅僅是因為（too soon）
- `06:44` 它感覺像是（just because）
- `06:44` 一種範式轉移，（it felt like）
- `06:45` 就像可能是（a paradigm shift,）
- `06:46` 帶領我們走向 AGI 的東西。（like possibly the thing）
- `06:47` 就像我說的（that got us to AGI.）
- `06:48` 在開頭時（Like I said）
- `06:49` 我們以為我們在（at the beginning）
- `06:50` 六個月內就能擁有 AGI（we thought we had AGI）
- `06:51` 當像是（in six months）
- `06:51` 一些（when like some）
- `06:52` 早期的運行（of the early runs）
- `06:53` 正在進行時（were happening）
- `06:54` 所以當時存在著（and so there was）
- `06:55` 這個問題（this question of）
- `06:56` 好的，我們要如何（okay how do we）
- `06:57` 負責任地發布這個呢？（put this out responsibly?）
- `06:58` 我們要如何測試（How do we test）
- `06:59` 這項技術？（this technology?）
- `07:00` 而在 O1 的初期（And during the initial）
- `07:02` 發布審查期間，（launch review for O1）
- `07:04` 我們在進行一些（we during some）
- `07:05` 網路安全測試時，（of our cyber security tests）
- `07:06` 該模型（the model）
- `07:07` 就像是第一個（it was like one）
- `07:07` 模型範例，（of the first examples）
- `07:08` 它（of the model）
- `07:09` 突破了（like breaking out）
- `07:09` 沙盒的限制。（of the sandbox）
- `07:10` 我們曾對此發表過文章，（we published about this）
- `07:11` 當時它本應（where it was supposed）
- `07:12` 待在這個 Docker（to be in this Docker）
- `07:13` 容器中進行這場（container during this）
- `07:14` 奪旗競賽 (Capture the Flag)，（capture the flag）
- `07:15` 結果模型發現了（and the model found）
- `07:16` 這種安全（this like security）
- `07:17` 漏洞，（vulnerability）
- `07:17` 以及我們（and like how we）
- `07:18` 實作（had implemented）
- `07:19` 奪旗競賽場景的方式，（the capture the flag）
- `07:21` 然後它就突破了限制，（scenario and it broke out）
- `07:22` 我們當時都心想：（and we were all like）
- `07:23` 糟糕，（oh no）
- `07:23` 如果它能做到這樣，（what else has the model）
- `07:25` 它還做過什麼其他事？（done if it did this?）
- `07:26` 那種感覺就像是（And it was kind of）
- `07:27` 感受到了 AGI 的時刻，（a feel the AGI moment）
- `07:28` 這只是其中之一。（one of many）
- `07:29` 我覺得從那之後，（I feel like ever since then）
- `07:30` 還有許多（there have been many）
- `07:31` 類似的時刻，（other such moments）
- `07:32` 模型（where the model）
- `07:32` 做了一些（has done something）
- `07:33` 非常令人驚訝、（really surprising）
- `07:34` 智慧、（or intelligent）
- `07:35` 或是新穎的事情，（or novel）
- `07:36` 甚至連我們（that we didn't even）
- `07:37` 在進行測試時（think of when we）
- `07:38` 都沒想過。（were doing the test）
- `07:38` 然後你會（and then you would）
- `07:39` 回過頭來查看（come back and look）
- `07:40` 這些紀錄（at the transcripts）
- `07:41` 和結果，（and results）
- `07:41` 並感嘆說：哇，（and be like wow）
- `07:42` 這些傢伙真是太厲害了。（these guys are）
- `07:43` 它們很聰明（they're clever）
- `07:43` 它們很聰明（they're clever）
- `07:44` 然後當時（and then it was）
- `07:45` 非常重要的一點是（just very important）
- `07:46` 我們發布了（that we published）
- `07:47` 並確保（and made sure）
- `07:48` 全世界都知道（the world knew）
- `07:48` 這些模型（like the models）
- `07:49` 能夠做到這類（can do this sort）
- `07:50` 事情（of thing）
- `07:51` 沒錯（yeah）
- `07:51` 有一段時間（there was）
- `07:52` 就在（this period）
- `07:53` o1 發布之前（right before）
- `07:54` 很多人（01 it was announced）
- `07:55` 都在說（a lot of people）
- `07:55` 看起來（like oh）
- `07:56` 我們已經撞牆了（it looks like）
- `07:56` 已經好幾個月（we've hit the wall）
- `07:57` 沒有任何進展了（it's been a few）
- `07:58` 然後 o1 出現了（months since）
- `07:58` 他們就說（anything's happened）
- `07:59` 什麼是牆？（then 01 came out）
- `08:00` 撞牆（and they're like）
- `08:00` 根本不是（what's a wall?）
- `08:02` 正確的（Hitting the wall）
- `08:02` 思考方式（is just so not）
- `08:04` 沒錯，當我（the right way）
- `08:04` 看到這類貼文時（to think about）
- `08:05` 會感到非常（yeah I get very）
- `08:06` 沮喪（frustrated when I）
- `08:06` 因為我會想（see posts like that）
- `08:07` 老兄，如果你看看（because I'm like）
- `08:08` 我覺得我已經（man if you look at）
- `08:10` 關注這些模型（I feel like I've been）
- `08:11` 的改進（looking at this model）
- `08:12` 以及這些進展（improvement）
- `08:12` 很長一段時間了（and this progress）
- `08:13` 它就是不斷地（for a long time）
- `08:14` 變得更好（and it just keeps）
- `08:14` 就像它不斷地（getting better）
- `08:15` 變得更好（like it just keeps）
- `08:16` 如果我看看（getting better）
- `08:16` 我們的研究路線圖（and if I look at）
- `08:18` 現在我看不出有任何（our research roadmap）
- `08:19` 停滯的跡象（now I see no signs）
- `08:21` 事情只會（of stopping）
- `08:21` 持續變得（like things are just）
- `08:22` 更好（going to keep getting）
- `08:23` 更好。（better）
- `08:23` 這將會是（this is going to be）
- `08:24` 非常瘋狂的一年（a really crazy year）
- `08:24` 很多非常酷的（a lot of really cool）
- `08:25` 研究即將（research is going to）
- `08:27` 問世（come out）
- `08:27` 而且我認為這（and I think this is）
- `08:28` 大概是（probably true）
- `08:29` 整個（across the whole）
- `08:29` 產業的共識（industry）
- `08:29` 所以沒錯（so yeah）
- `08:31` 如果說有什麼的話（if anything）
- `08:31` 人們真的（people are really）
- `08:32` 低（under）
- `08:33` 他們真的低估了（they really under）
- `08:34` 對這些模型的（expect）
- `08:35` 期望（from the models）
- `08:36` 不過有時候（it seems like）
- `08:37` 看起來（sometimes though）
- `08:37` 他們（that their）
- `08:39` OpenAI 發布了（open eye releases）
- `08:40` 很多東西（a lot）
- `08:40` 他們告訴人們（they tell people）
- `08:41` 關於我們（about things）
- `08:41` 正朝向的方向（we're headed）
- `08:41` 並說（and say that）
- `08:42` 這看起來很有趣（this looks interesting）
- `08:43` 有時候人們（sometimes people）
- `08:43` 會忘記這一點（forget this）
- `08:44` 或者你會聽到（or you get）
- `08:44` 像是一些傳聞（rumors of stuff）
- `08:45` 例如 Qstar（like Qstar）
- `08:47` 老兄，Qstar（Qstar man）
- `08:50` 你真的（you're very）
- `08:50` 很有趣（interesting）
- `08:51` 但不是（but no）
- `08:51` 人們沒有（people don't）
- `08:52` 意識到（realize）
- `08:53` 就像（like）
- `08:53` 我不知道（I don't know）
- `08:54` 我感覺（I feel like）
- `08:54` 我們試圖（we try to be）
- `08:55` 非常公開（very open）
- `08:55` 並說（and say like）
- `08:56` 嘿各位（hey guys）
- `08:56` 這裡有一些（here are some）
- `08:57` 圖表（plots）
- `08:57` 就像（like the）
- `08:57` 曲線正在（lines are going）
- `08:58` 上升（up）
- `08:59` 事情正在（things are）
- `08:59` 真的很有能力（really capable）
- `08:59` 我想或許（I think maybe）
- `09:00` 有這樣一個（there's this）
- `09:03` 迷因說（meme that）
- `09:04` 噢，那些研究人員（oh the researchers）
- `09:04` 他們並不（they don't）
- `09:05` 了解（understand）
- `09:06` 這些模型（the models）
- `09:07` 只擅長（are only good）
- `09:08` 數學（at math）
- `09:08` 和研究（and research）
- `09:09` 但不擅長（but not good）
- `09:09` 處理（at things）
- `09:09` 現實（in the real）
- `09:10` 世界中的事物（world）
- `09:10` 但我只是（but I just）
- `09:11` 不認為（don't think）
- `09:11` 那是真的（that's true）
- `09:12` 我認為（I think）
- `09:12` 來自（people from）
- `09:13` 甚至其他（even other）
- `09:14` 職業（occupations）
- `09:14` 轉職（that have）
- `09:15` 進入 OpenAI 的人（transitioned）
- `09:15` 開始（into open）
- `09:16` 看到（AI）
- `09:16` 我們的模型（are starting）
- `09:16` 正在（to see）
- `09:17` 學習（our models）
- `09:17` 各種（are picking）
- `09:18` 不同的事物（up at）
- `09:18` 而且我知道（all sorts）
- `09:19` 這看起來（of things）
- `09:19` 可能像（and I know）
- `09:20` 研究人員（it might seem）
- `09:22` 試圖（like the researchers）
- `09:23` 過度炒作（are trying to）
- `09:23` 模型（overhype the）
- `09:24` 之類的（model or something）
- `09:24` 但如果說有什麼的話（but if anything）
- `09:25` 我認為我們（I think we're）
- `09:25` 反而低估了（underhyping）
- `09:26` 它們的（the power）
- `09:27` 能力（of them）
- `09:28` 你提到了（you brought）
- `09:29` AGI（up AGI）
- `09:29` 如果我把（if I brought）
- `09:31` GPT-4
- `09:33` 從（back from）
- `09:34` 2023 年 3 月帶回來（March 2023）
- `09:36` 回到（back into）
- `09:37` 比方說（let's say）
- `09:39` 2020 年（2020）
- `09:39` 我想人們（I think people）
- `09:40` 會（would have）
- `09:41` 那樣稱呼它（called it that）
- `09:41` 而現在（and now）
- `09:42` 我們有了（we have）
- `09:42` 這種（this much）
- `09:43` 更（more）
- `09:43` 不同（different）
- `09:43` 的想法（idea）
- `09:43` 關於這點（of this）
- `09:44` 人們（people）
- `09:44` 每天（talk）
- `09:44` 與人工智慧（to AI）
- `09:45` 對話（every day）
- `09:45` 他們會（they'll have）
- `09:46` 進行（long）
- `09:46` 長時間的對話（conversations）
- `09:47` 與這些事物（with things）
- `09:47` 就像沒人（like nobody）
- `09:48` 再談論（talks about）
- `09:48` 圖靈（the Turing）
- `09:49` 測試了一樣（test anymore）
- `09:49` 那時（is when）
- `09:50` 沒人真正（nobody really）
- `09:50` 理解（understood）
- `09:50` 他當時（what he was）
- `09:51` 試圖（trying to）
- `09:51` 解釋什麼（explain）
- `09:51` 你知道嗎（you know）
- `09:52` 但現在（but now）
- `09:53` 我們已經遠遠（we're well）
- `09:54` 超越了那個（past that）
- `09:55` 時期（period）
- `09:56` 是否有（is there）
- `09:56` 針對 AGI 的評估（the eval）
- `09:57` 呢？（for AGI）
- `09:58` 是啊，我的意思是，這些模型通過了圖靈測試，卻沒人討論這件事。這真的很瘋狂。沒錯，我認為在許多許多情況下，模型與人類幾乎無法區分。至於 AGI 的測試，我的意思是，我認為如果一個模型能做到，比如那些經典且最具經濟價值的任務。而且我認為人們正越來越多地將模型用於他們工作中的大部分環節。（Yeah, I mean, the models passed the Turing test and no one talked about it. It's kind of crazy. Yeah, like I think models are pretty much indistinguishable from humans in many, many situations. In terms of the test for AGI, I mean, I think if a model can do, like there's the classic most economically valuable work. And I think people are increasingly using the model for large parts of their work.）
- `09:58` 是啊（yeah）
- `09:58` 是啊（yeah）
- `09:58` 這些模型（the models）
- `09:59` 這些模型（the models）
- `10:20` 而且我認為會出現一個很大的範圍和爭論，討論這究竟是什麼時候發生的。但天啊，我確實覺得 Codex 為我做了很多工作。而且我覺得自己很幸運能擁有無限的 token，你知道，所以這絕對是來這裡工作的另一個原因。（And I think there'll be like a big spectrum and debate of like when exactly this happened. But gosh, I certainly feel like Codex does a lot of work for me. And I feel very lucky to have unlimited tokens, you know, so that's certainly another reason to come work here.）
- `10:35` 歡迎加入。沒錯。但我覺得，總會有一個時刻，人們會意識到他們正將模型用於如此多的工作，以及我們即將看到的科學突破。（Please join. Yeah. But yeah, I think there'll just be a moment when people are realizing that they're using the models for so much of their work and also the scientific breakthroughs that we're going to see.）
- `10:45` 或者我認為在某個時間點，這將變得無可辯駁。這些模型確實非常、非常強大。（Or I think there'll be at some point it'll be incontrovertible. Like these models are really, really powerful.）
- `10:50` 我們看到數學專家在談論這些模型在該領域變得有多好。我們也看到物理學家在談論如何運用它。我認為我們正開始看到一些真正的成果產出，這真的很令人興奮。（We're getting mathematics experts talking about how good the models are getting at that. And we're getting physicists talking about doing that. And I think that we're starting to see some real work come out of it, which is just exciting.）
- `11:01` 是啊。（Yeah.）
- `11:01` 所以你提到了部分問題，關於一些早期的評估方式。比如其中許多是從較舊的自然語言處理方法等繼承而來的。然後當你在尋找方法時，我們該如何衡量這件事的成功呢？（So you brought up part of the problem with some of the earlier evals. Like a lot of them were inherited from older natural language processing methods and stuff. And then sort of when you're looking for ways, how do we measure the success of this?）
- `11:13` 說實話，其中一些測試實在太簡單了，基本上那些基準測試都能輕鬆通過。然後你就必須找出新類別的東西來測試。（Literally, some of these were just so simplistic that pretty much those benchmarks got passed. And then you had to figure out new categories of stuff.）
- `11:20` 這些測試是如何演變的呢？（How have these been evolving?）
- `11:22` 過去的情況是，即使是所謂的學術基準測試，我們的模型也無法通過。例如，高中生或大學生會參加的經典考試，或是那種選擇題類型的問題。（It used to be that, you know, even the academic benchmark, so to speak, our models couldn't pass. Like, you know, classic tests that someone would take in high school or college or sort of more multiple choice types of questions.）
- `11:33` 隨著模型變得越來越聰明，我們必須讓測試變得越來越真實。（And as the models got smarter, we had to make things more and more realistic.）
- `11:36` 所以我們公開發布的第一個基準測試之一是 Sweebench Verified，它是在測試模型在真實程式庫（如 Django）中互動的能力，例如完成 Pull Request 之類的工作。（So one of the first benchmarks that we put out more publicly was this benchmark called Sweebench Verified, which was like testing how well the model could, you know, interact in real code bases in Python, like Django and like, you know, complete PRs and that sort of thing.）
- `11:50` 並且要能通過單元測試。後來這些測試變得更進階了，我們開始測試模型是否能在複雜環境中採取多步驟行動，在電腦上執行操作，甚至連結到現實世界，例如我們的一些濕實驗室和生物學研究工作。（And like pass unit tests. And then those became even more advanced where we were like, OK, can the model take, you know, multi-step actions on like some complex environment, take actions on the computer, like take actions that link up to the real world with like some of our wet labs and biology work.）
- `12:05` 所以我認為隨著時間推移，當模型不斷進步時，我們在衡量標準的長遠視野和真實性上，必須要有更大的企圖心。（So I think over time, as the models keep getting better, we have to be more ambitious with like how long horizon and how realistic our measurements are.）
- `12:14` 而且這樣做非常有趣，因為你必須保持領先於進步的速度。（And doing that is very fun because you have to like sort of stay ahead of the pace of progress.）
- `12:18` 所以有兩個術語我想請你解析一下。當我們談論基準測試時，經常會聽到「bench maxing」。（So two terms I want you to unpack. When we talk about benchmarks, you often hear bench maxing.）
- `12:24` 沒錯。「bench maxing」我想是指如果有人在訓練模型時，只是為了在某個評估或基準測試上表現好看，而不是真正讓模型具備通用實用性。（Yeah. Bench maxing is, I would say, this idea that you if someone training a model was just trying to look good on some evaluation or benchmark and not actually making the model generally useful.）
- `12:35` 我認為這通常沒什麼幫助，因為你希望模型能擅長使用者真正想做的事情。（And I would say that's generally not super helpful because you want the model to be good at the real thing that the user might want to do.）
- `12:40` 你不能只在乎它在行銷文案上看起來很厲害，因為當使用者實際使用時，他們會覺得：「嘿，這跟我預期的不太一樣。」（And you don't just care about it looking good in some like marketing copy because like when a user uses it, they'll be like, hey, this is like not quite what I signed up for.）
- `12:49` 所以總體來說這是不好的。「bench maxing」是不好的。（And so generally bad. Bench maxing is bad.）
- `12:51` 對。我覺得我聽過的解釋方式還蠻合理的，就是你有 X 數量的運算預算、時間，以及你打算投入多少資源。（Yeah. I think the way they've heard explain kind of makes sense is that you have X amount of compute budget, time, how much you're going to spend on it.）
- `12:58` 你可以將其中很大一部分花在讓模型整體變得非常優秀上。（And you can spend a large part of that making the model just overall very good.）
- `13:01` 或者我可以說，我要把 90% 的資源花在評估上，這樣當我發布模型時，我的評估結果看起來會非常漂亮。（Or I can say I'm going to spend 90 percent of it. So my evals are going to look really good when I release it.）
- `13:06` 有時候我們確實看過有人直接把那些評估結果拿來用。（And sometimes we've seen people just go literally use those evals for it.）
- `13:10` 結果出來時大家說：「喔，這真是個很棒的模型。」然後你發現，喔，它只擅長做那件事而已。（It comes out like, oh, that's like a great model. And then you find out, oh, it's only good at that.）
- `13:15` 對，那對使用者來說並不是很好的體驗。（Yeah, that's not a great experience for the user.）
- `13:17` 所以我認為 OpenAI 研究團隊做得很好的一點是，我們非常嚴謹地確保將資源投入在真正重要的通用模型改進領域。（So I think something that the OpenAI research program has done quite well is try to be very disciplined about making sure we are investing in general model improvements on the areas that really matter.）
- `13:28` 然後，你知道的，最後再跑一些評估來進行比較。（And then, you know, you'll run some evals at the end for comparison.）
- `13:32` 但目標不應該是「喔，我們只想在評估中看起來很厲害」。（But the goal should not be, oh, we just want to look good on an eval.）
- `13:35` 我們想要打造一個有用的模型，來推動科學的前沿，或是推動工作的前沿，諸如此類。（We want to make a model that's useful to push forward the frontier of science or push forward the frontier of work or something like this.）
- `13:41` 而且我認為 Jakob 在整個研究組織中也做得很好，他強制要求我們必須保持科學性和誠實。（And I think Jakob has done a really good job also, like enforcing throughout the research org, like we should be really scientific and honest.）
- `13:48` 這也包括了，你知道的，我們發布了模型在某些方面表現並非最好的結果。（And that's included. You know, we've published results where our models were not the best before.）
- `13:52` 我們只是想發布真實情況，確保我們對模型的能力描繪得非常準確，然後盡可能讓它們在現實世界中發揮作用。（We just want to publish the reality and make sure that we are painting a very accurate picture of what our models can do and then aim to make them useful in the real world as much as we can.）
- `14:01` 你提到了軟體工程基準測試，作為現在可能沒那麼有用的指標之一。（You mentioned the software engineering bench as a one of the metrics that's maybe not as useful now.）
- `14:07` 我們常聽到「飽和」這個詞。請解釋一下基準測試飽和是什麼意思。（And we hear the term saturated. Explain what it means in a benchmark saturated.）
- `14:11` 飽和是指模型已經接近答對所有問題，也就是在測試中接近 100% 的正確率。（Saturated is when a model is close to passing all the questions correctly, like getting close to 100 percent on the test.）
- `14:18` 一旦基準測試飽和了，它就沒什麼用了，因為你無法透過該測試區分出模型之間的差異。（And once a benchmark is saturated, it's not super useful because you can't really tell models apart with that test.）
- `14:24` 就像拿高中數學考試來比較兩個天才一樣。（It's like comparing two geniuses on like a high school math exam.）
- `14:27` 他們可能都會通過，但當你試圖區分非常、非常聰明的智慧體時，這並不實用。（Like they might just both pass, but that's not very useful as you're trying to separate really, really smart pieces of intelligence.）
- `14:34` 所以挑戰永遠在於創造越來越困難、真實且未飽和的基準測試，以便隨著時間推移來衡量模型，並預測進步的方向。（So the challenge is always to make more and more difficult, realistic, unsaturated benchmarks that you can then measure models against over time and forecast sort of where progress is going.）
- `14:45` 你現在是怎麼做到的？你如何找出什麼才是好的基準測試？（How do you do that now? How do you figure out what a good benchmark is going to be?）
- `14:48` 嗯，我認為最好的基準測試是非常真實的，並且衡量了人們真正關心的事物。（Yeah, I mean, the best benchmarks, I think, are really realistic and measure something people actually care about.）
- `14:52` 所以我們朝這個方向邁出的第一步，雖然已經過了一段時間，但我們發布了一個叫做 GDP Val 的測試。（So one of our first forays towards doing this, which, you know, it's been a while now, but that we published was called GDP Val.）
- `14:59` 我當時對這種能衡量模型如何與現實世界互動的想法感到非常興奮。（Like I was really excited that about the idea of having a measurement for how the models could interact with the real world.）
- `15:05` 我們當時正經歷一場評估危機，因為我們不斷訓練出越來越好的模型。（And we were really having this crisis of evals where we kept training successively better models.）
- `15:10` 但在 Sweebench 上，它們看起來都差不多，因為它們都表現得太好了。（And on Sweebench, they looked about the same because they were just doing really well.）
- `15:13` 我們達到了該基準測試所能衡量的極限。（And like we were reaching the top of what that benchmark could measure.）
- `15:17` 當時我們心想：「天啊，我們根本不知道該如何衡量人們真正想用我們的模型做什麼。」（And we were like, man, we have no idea how to measure what people actually want to use our models for.）
- `15:21` 所以當時的想法是，嘿，美國勞工統計局有一份所有頂尖工作的清單，以及每份工作的所有頂尖任務。（And so there was very much a, hey, like the Bureau of Labor Statistics has a list of all the top jobs and like all the top tasks per job.）
- `15:28` 如果你是一名金融分析師，進行投資盡職調查、撰寫法律備忘錄，或是根據某項研究撰寫論文之類的。（And if you're a financial analyst, like doing an investment diligence or writing a legal memo or, you know, writing a paper based on a piece of research or something like this.）
- `15:38` 我們的想法是，我們能否讓模型執行那些人們在現實生活中會需要的任務，並提供當時所需的背景資訊，然後看看模型如何解決這些任務？（And the idea was, can we actually ask the model those tasks that someone would want in real life with the context they would have at the time and then see how the model could solve those tasks?）
- `15:47` 當時，當我們在這個基準測試上測試最早期的模型之一時，它的得分不到 20%。（And at the time, when we tested one of the earliest models on this benchmark, it got like, you know, less than 20 percent.）
- `15:54` 如果你比較模型在這些明確定義的工作任務上的表現與人類相比，模型表現得差多了。（Like if you compare how well a model would do on this well-specified work task compared to a human, like the model was way worse.）
- `16:00` 但我真的很為這個組織感到驕傲，因為我們決定：「其實，你知道嗎？我們應該發布這種衡量和預測現實世界經濟影響進展的新方法。」（But I'm like really proud of the org for being like, actually, you know what, we should publish this new way to sort of measure and forecast progress on real world economic impacts.）
- `16:08` 這對許多經濟學家來說非常有幫助。（And it's been like very useful to a lot of economists.）
- `16:11` 而且現在我們的模型也是最好的。（And also our models now are the best.）
- `16:13` 這真的很酷，因為我覺得當時我們在某些訓練計畫中並沒有真正投入現實世界的工作，甚至沒有去衡量或追蹤它。（And it's very cool because I think at the time we were like not really investing in real world work in some of our training programs and weren't even measuring or tracking it.）
- `16:24` 我覺得現在大家更關注如何讓這些模型在人們的實際工作中發揮作用，例如針對真正的科學家。（And I think now there's a lot more focus on how can we make these models useful for people in their real work, like for real scientists.）
- `16:31` 這也算是一種催化劑，喚醒了大家：嘿，或許我們也該思考如何衡量這些東西在現實世界中是如何被使用的。（And this kind of helped catalyze a wake-up call that, hey, maybe we should also think about how to measure how stuff is used in the real world.）
- `16:38` 所以那真的很酷。（So that was pretty cool.）
- `16:39` 但現在我們覺得，OK，這個基準測試可能太簡單了，因為它的規範極其詳盡。（But now we're like, OK, this benchmark is probably too easy because it's extremely well-specified.）
- `16:43` 就像每個 prompt 都有好幾百個字，告訴你：我希望你去這個試算表做這個修改，執行那個操作，然後把計算結果放進備忘錄裡。（Like each of the prompts is, you know, hundreds of words of I want you to go to this spreadsheet and make this change and do this thing and then take that calculation and put it in a memo.）
- `16:52` 這非常細節。我認為下一步是，我們該如何給予模型像現實世界報告中那樣的模糊性？（It's like very detailed. And I think the next step is how do we give the model as much ambiguity as you would give a report in the real world?）
- `16:58` 就像，如果主管問你：嘿，你可以幫我跑一下這個分析嗎？（Like, you know, if a manager asks, like, hey, can you run this analysis for me?）
- `17:02` 模型應該要能自己找出該做什麼、整合資料、執行分析，然後給你一個產出。（They should go figure out what to do, put that together, run the analysis and give you an output.）
- `17:06` 所以我認為我們一直在努力尋找更實際的方法來衡量現實世界中的真實工作，無論是在科學領域、個人用途，甚至是企業應用。（And so I think we've been working a lot on like more realistic ways to measure real work in the real world, whether that's in like science, for personal use or even for enterprise.）
- `17:16` 比起隱藏基準測試，將其公開似乎更有意義，因為作為一個組織，你在內部會想：OK，這表現太差了，不能這樣。（There is seems to be something to the idea of instead of hiding a benchmark, putting it out there because internally as an org, you go like, OK, this can't stand.）
- `17:24` 沒錯，這確實能激勵研究。（Yeah, it's it really motivates research.）
- `17:26` 此外，我認為人們想知道真相，也想知道我們在哪方面可以做得更好，並為使用者提供更好的模型。（Also, I think people want to know the truth and they want to know where we can be better and deliver a better model for our users.）
- `17:33` 所以了解這些差距是非常有用的。（And so knowing the gaps is quite useful.）
- `17:35` 你認為目前我們進行評估（evals）的方式有哪些限制？（What do you think the current limitations are right now with the ways that we're doing evals?）
- `17:39` 我認為我們現在與 Codex 以及我們最新的推理模型（如 GPT-5.5）所進行的工作類型，與六個月前相比，能力層級完全不同。靜態基準測試根本無法衡量這些模型能為你完成多長時間的工作。（I think the types of work that we're doing now with with codex and with our latest reasoning models like five, five, it's just such a different level of capability than what we had even six months ago, where a static benchmark just doesn't measure the long, like the nature of how long you can get work out of these things.）
- `17:59` 這些模型可以為你工作好幾天甚至好幾週。（Like these models can work for days or weeks for you.）
- `18:02` 在研究內部，我們曾讓模型連續運行很長一段時間來處理工作。（And like internally in research, we've had the models just like run for really long periods of time to do work.）
- `18:07` 自動化評估的問題之一在於，你通常需要它在一定時間內運行完畢並取得結果，以便進行查看。（And one of the problems with an automated eval is you kind of need it to run within some amount of time and get results to be able to look at them.）
- `18:14` 而我們現在衡量模型的方法，也包括觀察生產環境的使用情況，查看人們在現實世界中的使用方式，以及他們用它來完成什麼類型的任務。（And a lot of the ways that we're measuring models now also just include looking at production usage and looking at real world use by people and seeing what they're using it for and what types of tasks they're able to get done.）
- `18:26` 因為模型完成工作的時間跨度正在變得越來越長。（Because the time horizon of how much work is done by the model is just getting so much longer.）
- `18:31` 觀察長上下文（long context）的發展很有趣。（It was interesting watching, for instance, long context.）
- `18:34` 早期各家公司都在競賽，宣稱我們的模型可以處理 10 萬個 token、100 萬個 token 之類的。（There was kind of this early race for companies to say that, hey, our models can take, you know, 100,000 tokens, a million tokens, whatever.）
- `18:42` 但當時對於這些能力的評估並不多。（But there wasn't a lot of evaluation on how well that was.）
- `18:46` 後來我們有了「大海撈針」（needle in the haystack）測試，這是一種檢查模型能否找到特定字詞的方法。（And then we got needle in the haystack, which is a method of seeing if it could find a word or whatever.）
- `18:50` 我認為當時人們以為這已經是個被解決的問題了。（And I think that people sort of assumed that that was a solved problem.）
- `18:54` 但其實不然。（But it wasn't.）
- `18:55` 只是當時的基準測試不夠好。（It was just the benchmarks weren't really good.）
- `18:57` 後來我們才有了更好的基準測試。（And then we had to have better benchmarks.）
- `18:59` 這是否就是讓情況好轉的原因？終於有人能投入更多注意力去解決問題，因為他們了解問題出在哪裡？（And is that what kind of made it better was finally people could, one, spend more attention solving that problem when they understood where it was failing?）
- `19:06` 沒錯。（Yeah.）
- `19:06` 我們現在確實有更好的基準測試來處理這類事情。（We definitely have better benchmarks for this sort of thing now.）
- `19:09` 同時，這些問題有時也會揭示我們在訓練思維上的缺口。（And then also sometimes these problems reveal gaps in how we're thinking about training.）
- `19:13` 舉個例子，我們過去認為，重要的是在測試時能塞進模型多少上下文。（So one example is we used to think, oh, what matters is just how much context you can stuff into the model at test time.）
- `19:20` 但現在看來，你只需要把一堆檔案丟進容器裡，模型就能自己去搜尋它需要的內容。（When now it seems that you can just dump a bunch of files in a container and the model can kind of rep around and search for what it needs and when.）
- `19:26` 這種擁有搜尋功能或工具來決定該使用哪些上下文的能力，比單純把所有東西塞進上下文視窗更有效率。（And like this ability to have search or tools to figure out what context you should use can be more efficient than just stuffing everything in the context.）
- `19:34` 如果沒有親自嘗試並觀察其在各種基準測試上的表現，我們真的不會意識到這一點。（And we wouldn't have really realized that without trying that out and then seeing how that performed on various benchmarks.）
- `19:39` 所以我認為這讓模型變得更有用，因為現在模型可以搜尋整個程式庫，找到你需要的檔案，並理解你進行修改的上下文。（So I think that makes it this like makes the model a lot more useful because, for example, now the model can like search over a whole repo and like find the files that you need and like understand the context of where you're making changes.）
- `19:51` 許多工作場景也是如此，例如 Codex 的使用者現在可以上傳他們的本機檔案系統。（And the same is true for many work contexts where, you know, folks in Codex can now like upload their local file system.）
- `19:56` 上傳他們的本機檔案系統。而且，你可能之前做過簡報，（upload their local file system. And like, you know, you might have made PowerPoints before）
- `20:00` 或是發過與你目前工作相關的 Slack 訊息。模型可以透過工具呼叫來搜尋這些上下文。（or sent slacks that are relevant to the work that you're doing now. And the model can sort）
- `20:04` 所以我們不再受限於你字面上能塞進多少上下文，因為模型可以進行搜尋。（of search over that context with tool calls. And so we're not as limited by how much you）
- `20:09` 因為模型可以搜尋。（can literally stuff into context because the model can search.）
- `20:12` 你有特別喜歡的評估方式嗎？（Do you have any favorite evals?）
- `20:13` 我最喜歡的評估？我的意思是，GPQA 是我最喜歡的公開評估。（My favorite eval? I mean, GDP eval is my favorite public eval.）
- `20:17` 好的。（Okay.）
- `20:17` 但我有很多內部評估。我可以說出其中一個的名字，它叫 Houdini Bench。（But I have many internal evals. I will say the name of one of them. It's called Houdini）
- `20:22` 我不能再多做解釋了。（Bench and I cannot explain further.）
- `20:23` 天啊。你知道我以前是魔術師吧？所以。（Oh my God. You know, I was a magician, right? So.）
- `20:27` 沒有。（No.）
- `20:27` 對。（Yeah.）
- `20:28` 也許吧。我不知道你是否能通過 Houdini Bench。（Maybe. I don't know if you'd pass Houdini Bench.）
- `20:31` 不，我可能無法通過 Houdini Bench。那其實是我曾經（No, I'd probably not pass Houdini Bench. That was actually one of the things that I was）
- `20:34` 玩過一些早期視覺模型之類的東西，當時是用一些照片（played around with some of the early vision models and stuff was using stuff, photographs）
- `20:38` 以及魔術表演之類的東西來進行測試。（and stuff of magic tricks and stuff and seeing this.）
- `20:41` 那真的很酷。沒錯，多模態帶來了全新的元素。就像我記得當 4.0（That's very cool. Yeah. Multimodal brings a whole new element. Like I remember when 4.0）
- `20:47` 剛發布時，我們有一群人坐在這棟大樓的屋頂上，（had first come out, there was a group of us that was sitting on the roof of this building）
- `20:51` 我們對即時語音模型的概念感到非常震撼。然後我們就在想，（that our minds were just so blown by the idea of a real time voice model. And then we were）
- `20:55` 我們該如何評估這個東西呢？對吧。因為在文字、（like, how do we even eval this thing? Right. Because the whole paradigm of doing things in）
- `21:00` 程式碼以及電腦上進行操作的整個範式完全被顛覆了。如果有一種（text and code and on your computer is just completely blown away. If there's like a voice）
- `21:05` 即時的語音互動，那次發布中確實有一些非常有趣的事情。而且（interaction in real time, something that was really interesting about that launches. And）
- `21:09` 我們當時公開說過，我們實際上將公開發布時間推遲了六週，因為我們（we said this publicly at the time is we actually delayed the public launch by six weeks as we）
- `21:14` 正在設法確保模型是安全的。（were figuring out how to make sure the model was safe.）
- `21:16` 沒錯，因為這實際上是在選舉之前。所以當時有很多擔憂，（Yeah, because this was before the elections actually. And so there was like a lot of worry）
- `21:22` 像是「噢，如果模型能用聽起來很真實的聲音與你即時對話，這是否（of, oh, if the model can in real time talk to you with a realistic sounding voice, could）
- `21:27` 會被用於具說服力的宣傳或其他類似的事情？」這真的很酷。公司（this be used for persuasive propaganda or this sort of thing? And it was very cool. The）
- `21:32` 推遲了發布，以確保我們能建立所有這些測試，並（company delayed the launch to make sure we could build out all of these tests and build）
- `21:36` 內建緩解措施，確保模型不會被用於這類事情。（in mitigations to make sure the models couldn't be used for this sort of thing.）
- `21:40` 嗯，當這些模型變得多模態時，這似乎是一個非常複雜的因素。（Well, it seemed like that's a very complicating factor as these models became multimodal.）
- `21:45` 我記得在 GPT-4 早期，當時是 GPT-4 視覺模型，那時候（I remember early on with GPT-4, with it being a GPT-4 vision back when it was that was that）
- `21:51` 你可以，我可以，我的字跡很潦草。我可以寫一個 prompt，然後（you could, you could, I could, I had terrible handwriting. I could write a prompt and all）
- `21:56` 它突然就能解決這個問題，你會意識到，噢，這不是文字 prompt。這是視覺（of a sudden would solve for this and you realize, oh, it's not a text in prompt. It's a visual）
- `22:01` prompt。然後對於音訊模型，當你進行音訊輸入與音訊輸出時，模型（prompt. And then with the audio models, when you're doing audio in audio out, the model）
- `22:06` 可以模擬事物，並以如此不同的方式做事。所以看起來，（could emulate things and could do stuff in such different ways. And so it seems like that's）
- `22:11` 你真的要從哪裡開始嘗試找出該如何衡量這一點呢？（really, where do you even begin trying to figure out how you're going to measure that?）
- `22:14` 沒錯。我的意思是，這只是大量的工作。通常對於這些模型，我們從人類在這種情況下會做什麼開始？（Yeah. I mean, it's just a lot of work. Usually for any of these, we start with what would humans）
- `22:20` 所以，你知道，你會有一組輸入放入（do in this case? So like, you know, you would like have a set of inputs that you put into）
- `22:24` 模型中，並評估一組輸出。然後你可以建立，好吧，我們能（the model and a set of outputs you would evaluate. And then you can like build up, okay, can we）
- `22:28` 自動化其中一些嗎？我們能建立一個新的平台來大規模衡量這類事情，（like automate some of these? Can we build a new platform to measure this sort of thing）
- `22:31` 並從那裡開始推進嗎？但對於一些原生多模態的模型，你只是（at scale and sort of move from there? But for some of the natively multimodal, it's just）
- `22:37` 必須拆解你的一堆基礎設施並讓東西運作起來。這對於 Sora 來說也是一樣，（like you have to like rip apart a bunch of your infra and make stuff work. Like this was also）
- `22:40` 你知道，我們有興趣確保影片不會過於逼真，（true with Sora for, you know, we were interested in making sure the videos weren't overly realistic）
- `22:45` 或者被用於錯誤的事情。這需要，特別是從安全角度來看，建立（or could be used for the wrong thing. And that required like, especially from safety, building）
- `22:49` 一整套新的評估與緩解措施，包括在模型層級的拒絕機制，（up a whole new stack of evals and mitigations, like including refusals at the model level,）
- `22:55` 監控它在生產環境中的使用情況。是的，這需要一套全新的思考方式。（monitoring when this was being used in prod. And yeah, it requires a whole new stack of thinking.）
- `23:02` 沒錯。嗯，這也是重點，當你開始思考，好吧，你如何（Yeah. Well, that's the thing too, is that when you start to think about, okay, how do you）
- `23:07` 優先考慮一個評估勝過另一個？你何時決定這已經足夠了？或者你只是（prioritize one eval over another? When do you decide that this isn't enough? Or do you just）
- `23:12` 想說，看，這個已經飽和了，我們繼續前進。因為確實，儘管你可能（sort of go, look, this one's saturated, we move on. And because there is, even though you may not）
- `23:16` 並沒有試圖針對某些公開基準進行優化，你仍然必須弄清楚什麼對我們來說是重要的。（be trying to optimize towards certain public benchmarks, you still have to figure out like）
- `23:21` 就像曾經有一段時間 OpenAI 在程式碼方面處於領先地位，然後（what's important to us now. Like there was a time when OpenAI was leading in code and then）
- `23:29` 有一段時間不是。現在又回到了領先，但中間經歷了一段黑暗時期。（there was a time when it wasn't. Now there is a time it is, but there was a dark period）
- `23:33` 是的，我們盡量不被公開基準測試分散太多注意力，（where that happened. And yeah, we try not to get distracted by public benchmarks too much）
- `23:39` 因為那可能會有點雜訊。我認為，嗯，我們內部有一個稱為 AGI 指數的東西，（because it can be kind of noisy. I think the, um, internally we have this thing called AGI index,）
- `23:45` 它的靈感來自於 CPI 或通貨膨脹的概念，即你擁有一個（which is inspired by the idea of like CPI or inflation, where you have like some weighted）
- `23:49` 加權的商品籃子，並追蹤這些商品的價格。對我們來說也是一樣，（basket of goods and you're tracking the price of those goods. Um, for the same thing for us,）
- `23:54` 我們有一個評估籃子，其中包括我們感興趣的所有核心領域的衡量指標，（it's, we have like this basket of evals that include measurements across all of the core areas）
- `23:58` 這可以包括對齊、安全性、能力，（we're interested in that can include alignment, it can include safety, it can include capabilities,）
- `24:02` 這只是你對模型的要求。我們只是迭代，我們不斷更新該（it's just sort of what you want from your model. And we just iterate, we like keep updating that）
- `24:07` 指數，以代表越來越多我們希望模型能做到的困難版本。（index to represent more and more sort of the difficult version of what we want our models）
- `24:11` 我們在內部追蹤該指數，並試圖不被，嗯，你知道，（to do. And we sort of track that index internally and try not to be distracted by, um, you know,）
- `24:16` 試圖去跑某些公開基準測試之類的事情所干擾。這更多是擁有一種混合的評估方式。（trying to benchmark some public benchmark or something like that. It's more having a blend of evals）
- `24:22` 跨越我們所關心的不同領域，無論是科學還是工作，以及安全性和對齊問題（across different domains that we care about across science or work, and then also safety and alignment）
- `24:26` 並確保我們能持續在那個加權籃子中取得進展。嗯，試著保持專注。（and making sure we keep making progress on that sort of weighted basket. Um, try to stay focused.）
- `24:32` 我們觀察了這些評估方式的演進。我們也觀察了模型的演進。（We've watched this evolution of these evals. We've watched the evolution of the models.）
- `24:37` 我與這裡從事科學工作的人談過，像是那些活躍於科學領域的人，（And I've talked to people here working in the sciences, like people who are active in the science,）
- `24:43` 不僅僅是喜歡科學或喜歡電腦科學的研究人員，而是那些身處生物學、（not just researchers who like science or like computer science, but people who are in biology,）
- `24:47` 數學領域的人。你能告訴我科學前沿的評估進展如何嗎？因為（mathematics. Can you tell me what's going on with the evals in the scientific frontier? Because）
- `24:52` 我們現在處於這個節點，看起來我們即將看到有意義的成果。是的，我認為我們在（we're at this point now, it seems like we're going to see meaningful results. Yeah, I think the work）
- `24:56` 某些科學評估上的工作是我們最令人興奮的部分之一。所以在過去幾個月裡，我們公開了幾個（in some of our science evals is some of our most exciting. So in the past few months, there's a few）
- `25:00` 層級的評估。第一個層級是這個稱為「前沿科學（tiers of evals that we've made public. So the first year was this eval called frontier science）
- `25:05` 奧林匹亞」的評估，這有點像是我們之前擁有的數學奧林匹亞風格評估的（Olympiad, which was kind of, uh, the equivalent to the math Olympiad style evals that we had before,）
- `25:11` 對應版本，我們在其中測量模型在生物學、（where we were measuring how well the models could do on like, um, high school Olympiad style problems in）
- `25:16` 化學和物理學領域的高中奧林匹亞風格問題上的表現。它們屬於簡答題，但仍然相當困難。而模型（biology, chemistry, and physics. And they were sort of shorter answer, but still quite hard. And the models）
- `25:20` 當時還不夠好。接著我們進行的下一個階段是「前沿科學研究」，這也是（weren't very good yet. And then the next phase we did was frontier science research, which is also）
- `25:24` 公開的，人們可以執行這個評估，它測量了模型能多好地協助完成某種未完成的（public and people can run this, um, which measured how well models could help complete sort of unfinished）
- `25:30` 生物學、化學和物理學論文。所以我們找了一些在這些領域擁有博士學位或擔任教授的人，（biology, chemistry, and physics theses. So we had people who were PhDs or professors in these fields）
- `25:37` 他們有一些尚未發表的文本，例如可能是他們論文的一部分，（that had some texts that was not published, like maybe part of their thesis, um, and just turned that）
- `25:43` 並將其轉化為一個評估，模型會獲得一些輸入資料或初始起點。（into an evaluation where the model was given maybe some input data or some initial starting point.）
- `25:48` 它必須設法完成該論文的其餘部分，並根據評分標準來判斷（And it had to sort of see how it'd fill out the rest of that paper and judge against a rubric for）
- `25:52` 它的表現如何。你知道，這開始測量出，好吧，模型是否開始（how well it did. And, you know, that was starting to measure like, okay, are the models starting to）
- `25:56` 進行研究了？像是，它們是否正在使用工具，諸如此類的事情。然後其中一個最終的迭代（do research? Like, are they using tools, this sort of thing. And then one of the final iterations of）
- `26:01` 是為了觀察模型在現實世界的濕實驗室中表現如何。因此，我們與這家名為（this was to see how well the model could do in the real world in a wet lab. And so we worked with this）
- `26:06` Ginkgo Bioworks 的公司合作，他們擁有一堆非常酷的自動化濕實驗室機器人，模型（company called Ginkgo Bioworks that has a bunch of really cool automated wet lab robots where the model）
- `26:11` 必須為蛋白質合成優化這個實驗方案。我們的想法是，模型會（had to optimize this protocol for protein synthesis. And the idea was the model would, um,）
- `26:16` 生成一個方案，然後他們會在濕實驗室中自動進行測試，或者（generate a protocol and then they would actually automatically test it in the wet lab or they）
- `26:21` 他們會放入模型建議的試劑，然後觀察得到的蛋白質產量。嗯，（would like put in the reagents the model suggested and then see what protein yield they got. Um,）
- `26:26` 這是針對一種與卵巢癌藥物相關的蛋白質，（and this was for a protein that's like sort of related to this, um, ovarian cancer drug,）
- `26:30` 或者這是一個類似的模擬場景。起初我們非常緊張，（or it's like a sort of a toy scenario for that. And the model of like, we were really nervous at）
- `26:35` 因為我們覺得人類基準線相當難。我們不知道模型是否會（first because we were like, this human baseline is kind of hard. We don't know if the model is going）
- `26:38` 超越它，但我們永遠不該低估這些模型，因為你知道，（to beat it, but we should never underestimate the models because, you know, it just, the,）
- `26:43` 曲線非常、非常清晰。每一個週期都變得越來越好，超越了人類基準線，（the curve is pretty, pretty clear. Just every cycle got better and better beat the human baseline）
- `26:47` 並且在模型以多高的成本效益產生這種蛋白質方面，（and then set, set the state of the art on how, um, efficiently the model could cost per yield）
- `26:52` 樹立了最先進的標準。我認為這只是開始，如果我們給這些模型優化（generate this protein. And I think that's just the start of how, if we give these models optimization）
- `26:56` 問題，像是，去試著找出你能將這種疫苗的成本降低到什麼程度，或者（problems, like, you know, go try to figure out how inexpensive you can make this vaccine or,）
- `27:01` 生成、合成這種對藥物很重要的蛋白質。模型可以直接去（you know, generate, synthesize this protein that's important for a drug. The model can just go and）
- `27:07` 持續優化這些具有現實世界輸入的實驗方案。這是我們第一次（keep optimizing these protocols with real world inputs. And it was one of our first time）
- `27:10` 降低與現實世界連結的評估風險。我們不是在等待（de-risking and eval that's actually connected to the real world. Like we weren't waiting for a）
- `27:16` 一段程式碼執行完畢。我們是在等待機器人完成實驗，這樣我們才能記錄（piece of code to run. We were waiting for the robot to finish the experiment so we could record,）
- `27:20` 合成出了多少蛋白質。是的，我只是認為這些模型將為我們做很多（um, how much protein was synthesized. And yeah, I just think the models are going to do so much）
- `27:25` 科學研究。這將會非常有趣。嗯，那很令人興奮，因為那就像是（science for us. It's going to be really interesting. Well, that was exciting because that was just like,）
- `27:29` 我想是 GPT-5，而且它沒有經過任何「如何成為科學家」的訓練。現在這些（I think GPT-5 and it hadn't gone through any sort of, here's how to be a scientist. And now these）
- `27:34` 模型從那時起已經進步了很多。你在這方面有更多現實世界的經驗。（models have progressed a lot since then. You have a lot more real world experience with this.）
- `27:37` 是的。那甚至不是用我們最好的模型做的。那只是一個早期的推理模型。嗯，（Yeah. That wasn't even with one of our best models. It was like just an early reasoning model. Um,）
- `27:41` 所以我認為，是的，所有這些東西都會堆疊起來，就像我們會有更好的預訓練。我們有更好的（and so I think, yeah, all of these things stack, like we'll have better pre-training. We have better）
- `27:47` 強化學習和後訓練，而且我們在測試時使用這些模型的能力會變得更好，（RL and post-training, and we're going to get a lot better at using these models at test time to）
- `27:51` 以真正激發它們的能力。我認為下一代評估的重點在於我們如何（really elicit their capabilities. And I think the next generation of evals is really about how can we）
- `27:57` 讓這些模型在現實世界中採取行動，並為我們解決一些未解的問題，（have these models take actions in the real world and solve sort of unsolved problems for us that）
- `28:02` 這些問題如果由人類來處理需要很長時間。你知道，有些科學問題是（would take humans a long time. You know, some of these scientific problems that）
- `28:05` 我們一直無法投入足夠精力去解決的。這就像是，好吧，現在我們擁有所有（we haven't been able to put enough effort against. It's like, well, now we have all of）
- `28:09` 這些可以消耗運算資源來為我們解決問題的 Agent，並試著引導它們朝向（these agents that can spend compute to solve problems for us and try to steer them towards）
- `28:13` 有用的方向發展。這確實帶來了一個新的挑戰。（what would be useful. It does seem like that brings in a new challenge though.）
- `28:18` 你認為評估（evals）會變得複雜許多嗎？（Do you think that evals are going to give you a lot more complex?）
- `28:21` 沒錯。我的意思是，我們團隊有個說法，痛苦才是最真實的。我真的認為許多（Yeah. I mean, we have the saying on our team that pain is the most. I really think a lot of）
- `28:26` 現實世界中的操作將成為瓶頸的一部分，而衡量模型能做什麼的能力，因為即使只是從數位領域開始，還有太多（operations in the physical world will become part of the bottlenecks and being able to measure what）
- `28:31` 我們需要建立的鷹架和基礎設施工作來執行這些模型。例如現在，如果你想測試 Codex 的表現如何，（the models can do because even just starting with digital, there's so much more scaffolding）
- `28:36` 這就像是，模型正在呼叫 API。它就像是在你的電腦和（and infrastructure work we need to do to run these. Like now, if you want to test how well）
- `28:41` 瀏覽器中採取行動。它在為你製作產出物（artifacts）。它在撰寫、執行並運行那些程式碼。（codex does, it's like, well, the model is calling APIs. It's like taking actions on your computer and）
- `28:46` 要衡量那個模型實在複雜太多了。而且這還只是數位領域。現在，如果你想（in your browser. It's making artifacts for you. It's writing and running and executing that code.）
- `28:51` 衡量模型如何與現實世界互動，還有各種營運和物流工作，（It's just so much more complex to measure that model. And that's only digital. Now, if you want to）
- `28:55` 你需要有一個非常順暢的流程，才能看出如何大規模地部署這些東西。（measure how the model could interact with the physical world, there's all sorts of ops and logistics that）
- `29:00` 是的，我認為很多工作實際上正在從理論、數學，甚至是（you need to have a really smooth process for to see how you can deploy these things at scale.）
- `29:05` 程式撰寫轉移。我覺得人們現在沒那麼常寫程式了。他們只是問 Codex，而更多地轉向（And yeah, I think a lot of the work is actually shifting from being like theory or math or even）
- `29:11` 規劃、營運、實體事務，或者至少我的工作已經很大程度上轉向了那個方向。（programming. Like I feel like people don't program that much. They just ask codex and more shifting）
- `29:15` 而這些事情非常困難。其實在角落裡寫點東西還蠻容易的。（towards like planning, operations, physical stuff, or at least at least my job has shifted a lot that way.）
- `29:23` 當你必須管理所有這些營運和物流時，難度就高多了。（And those things are very hard. It's actually kind of easy to just like write something like in a corner.）
- `29:29` 這很令人興奮，但挑戰的一部分似乎在於這些不再只是簡單的評估了。（It's a lot harder when you have to manage all of these operations and logistics.）
- `29:33` 它們需要更多的運算資源。它們需要更多的時間。當你試圖進行長期的（It's exciting, but it seems like part of the challenge is these aren't just simple evals）
- `29:36` 評估時，你知道，這很漫長。你必須等待很長一段時間才能得到結果。（anymore. They take more compute. They take more time. When you're trying to do a long horizon）
- `29:40` 是的，絕對是。所以無論是構思評估還是大規模執行它們，工作量都大得多。（eval, you know, it's long. You have to wait a long time to get the outcome on that.）
- `29:45` 而且，如果工作需要更長的時間，我們就無法那麼快得到訊號。（Yeah, definitely. So it's both a lot more work to come up with the evals and run them at scale.）
- `29:49` 所以我們必須在縮放定律（scaling laws）上投入更多。（And also if the, you know, the work takes a longer amount of time, we don't get the signal as fast.）
- `29:53` 我們必須在縮放定律上投入更多，這樣我們就能預測，好吧，如果模型在第一天（So we have to invest more in scaling a lot.）
- `29:54` 看起來是這樣，那麼我們就能預測它在七天後會是什麼樣子，並找出趨勢，以便更快獲得訊號。（We have to invest more in scaling laws where we can predict, okay, well, if by one day the model）
- `29:59` 否則，我們就只能卡在那裡等待一週才能得到更新，這並不是最有效率的時間運用方式。（looks like this, then we can forecast that at seven days it would look like this and sort of）
- `30:03` 我有特定的基準測試和一些方法，每次新模型出來時我都會用來測試，以找出（come up with trends so that we can get signal faster. Otherwise, we're just like stuck there）
- `30:07` 它對我個人有什麼用處。這是我會告訴經營企業或（waiting for a week to get an update, which is not the most productive way to spend time.）
- `30:11` 做其他事情的人的一件事：思考你自己的評估方式，那些能告訴你某個東西處於什麼水準的事物，（I have certain benchmarks and things I use to test every time a new model comes out to find）
- `30:16` 因為有時人們可能會嘗試某個東西，他們可能在六個月前嘗試過 ChatGPT，然後覺得（out how it's personally useful to me. And it's one thing I tell people who run businesses or）
- `30:20` 「呃，這不好用，它做不到這個」。他們沒有意識到事情發展得有多快。你有（other things is think about your own evals, things that will tell you where something is,）
- `30:23` 任何建議給人們，關於如何找出該如何建立基準測試嗎？是的，我的意思是，如果事情（because sometimes people might try something, they might try ChatGPT six months ago and go）
- `30:29` 發展得非常快，每幾週就會有變化，我覺得人們對此並沒有那麼警覺。（like, eh, it wasn't good, it didn't do this. They don't realize how fast things move. Do you have）
- `30:33` 在我的工作中，我是世界上第一批看到一些最強大模型的人之一，（any advice for people on how to figure out how to come up with a benchmark? Yeah, I mean, if things）
- `30:38` 所以我對 AGI 充滿期待，而且我認為進展發生得快得多。你看到了什麼？（move really fast, things change every couple of weeks, and I feel like people are not as awake）
- `30:42` 我看到了什麼？我看到了很棒的模型，老兄。是的，但進展發生得比（about, in my job, I'm one of the first people in the world to see some of the most powerful models,）
- `30:47` 人們想像的要快得多。而且我認為最好的評估，老實說，就是「吃自己的狗食」（dog food）或直接使用模型。（so I'm extremely AGI-filled, and I think progress is happening a lot faster. What have you seen?）
- `30:51` 人們應該盡可能多地嘗試使用這些模型。即使有些事情（What have I seen? I've seen good models, man. Yeah, but progress is happening a lot faster than）
- `30:58` 他們認為模型在一週內表現不佳，他們也應該在下週再試一次。它（people would think. And I think the best eval, honestly, is just to dog food or use the model.）
- `31:04` 很可能會成功。我認為這對 AI 領域之外的人來說應該是很明顯的一件事，（People should just try to use the models as much as they can. And even if there are things that）
- `31:08` 那就是真正優秀的前沿 AI 公司是如何在內部使用這些工具的，這就是為什麼（they think the model didn't do well one week, they should just try it again the next week. It'll）
- `31:11` 事情正在加速發展並變得更有能力。是的，我基本上會嘗試讓模型對我所做的每一件事進行（probably work. I think that's one of the things that should be obvious to people kind of outside AI）
- `31:17` 初步處理，無論是發送 Slack 訊息、理解接下來要進行什麼（is how really good frontier AI companies are using these tools internally, and that's why）
- `31:22` 實驗，還是任何管理事務、營運、物流。你會讓模型進行初步處理，（things are speeding up and getting more capable. Yeah, I basically try to have the model take a）
- `31:27` 然後如果模型表現不好，我們就會想辦法將其納入評估中。（first pass of everything that I do, whether it's sending a Slack message, understanding what）
- `31:32` 我對電腦使用（computer use）評估感到興奮。光是觀察 Codex 的表現，（experiment to perform next, any management stuff, ops, logistics. You'd have the model take a first）
- `31:38` 電腦使用能力就比僅僅八個月前領先了光年之遠。而且看起來這些（pass, and then if the model's not good, we figure out how to put that in the eval.）
- `31:42` 東西只會變得更快、更好。我的預測是，可能到今年年底，（I'm excited about the computer using evals. Just watching the performance of Codex, the computer）
- `31:47` 比起大概八個月前，已經是天差地遠的進步。而且看起來那些（use is just light years over where it was just maybe eight months ago. And it seems like those）
- `31:52` 東西只會變得更快、更好。我的預測是，大概到今年底，（things are just going to get faster and better. My prediction is probably by the end of the year,）
- `31:56` 它使用我電腦的能力就會比我自己又快又好。（it'll use my computer better and faster than I do.）
- `31:59` 對，沒錯，我想是的。模型相對於你有一些優勢，對吧？它們可以呼叫連接器或（Yeah. Yes, I think so. The models have some advantages over you, right? They can call a connector or）
- `32:04` plugin，這是一種比你在電腦上得手動點擊進入某個（plug-in, which is a much faster mode of communication than you on your computer having to go click into a）
- `32:09` 服務並理解每一個頁面，然後來回複製一些資料，甚至編寫一些（service and understand every page and then copy some data back and forth, or even writing some）
- `32:15` 服務來呼叫該 API 或 MCP 或其他東西。這對人類來說比對模型來說更費力。所以（service to call that API or MCP or whatever. It's like more work for the human than for the model. So）
- `32:21` 模型具有這種優勢。而且如果模型經過訓練可以導航瀏覽器（the model has that advantage. And the models can just be faster if it's trained to navigate a browser）
- `32:26` 或桌面，無論是透過輔助功能樹還是透過程式碼，它們的速度都可以更快。所以模型比我們更有優勢。（or desktop, whether it's through accessibility tree or through code. So the models have an advantage over us.）
- `32:35` 而且我認為在很長一段時間裡，真的沒有非常有效的產品部署。（And I think for a long time, there was really no product deployment that was very effective.）
- `32:41` 雖然我們之前推出了 operator 和 ChatGPT Agent，這些對於展示（Yet like we launched operator and chat GPT agent a while ago, and those were really useful for showing）
- `32:46` 這是有可能的來說確實很有用，但這些模型的延遲實在太高了。就像它們（like this could be possible, but the latency on those models was just too high. Like they were just）
- `32:51` 超級慢。我不認為人們已經在超大規模地使用它們，但我們現在已經達到了一種（super slow. And I don't think people use them at a super high scale yet, but we've now reached sort of）
- `32:57` 轉折點。我們正在做一些事情，例如要求模型為我閱讀 Slack，或者去排程一堆（a tipping point. We're doing things like asking the model to read my Slack for me or like go schedule a bunch）
- `33:03` 行事曆邀請，並優化會議室，這對我來說比我自己做要快得多。（of calendar invites and like optimize the rooms is faster for me than it would have been to do it）
- `33:09` 而且我認為，是的，人們還沒準備好。此外，很多人還沒有嘗試過這些東西（myself. And I think, yeah, people are not ready. Also, a lot of people haven't tried this stuff out）
- `33:13` 因為它們都是最近才推出的，但每個人都應該去取得 computer use plugin，並像使用（because it's all launched so recently, but everyone should go get the computer use plugins and like use）
- `33:18` 那些東西一樣，安裝所有的 plugin 和所有好的連接器，這會讓事情變得更快。（those and like install all the plugins and all the good connectors that will make things faster.）
- `33:22` 然後你會感到大開眼界。（Then you'll be mind blown.）
- `33:24` 我們來談談 Frontier evals。（Let's talk about Frontier evals.）
- `33:26` 是的。所以 Frontier evals 團隊的目標確實是衡量和預測（Yeah. So the goal of the Frontier evals team is really to measure and forecast progress of）
- `33:30` OpenAI 的 Frontier 模型進展，以更好地了解我們在哪裡、我們要去哪裡，並試圖（the Frontier models at OpenAI to better understand where we are, where we're going and sort of try to）
- `33:36` 與世界分享這些資訊。我認為團隊嘗試做的一件事是盡可能地發布（share that with the world. And one of the things I think the team has tried to do is to help publish）
- `33:41` 和開源我們能做的一切。所以，你知道，我們協助開源的一些 evals 包括（and open source as much that we can. So, you know, some evals that we've helped open source include）
- `33:47` 像 SweetBench Verified，它有助於衡量程式撰寫方面的進展；MLEBench，這是一種衡量（like SweetBench Verified, which helped measure progress on coding, MLEBench, which was a way to measure）
- `33:53` 模型訓練其他模型的能力，並追蹤我們模型中機器學習工程（how well models could train other models and sort of track the progress of machine learning engineering）
- `33:57` skill 的進展。PaperBench，這是一種衡量模型複製真實頂尖（skills in our models. PaperBench, which was a way to measure how well models could replicate real top）
- `34:04` 機器學習論文（例如來自 ICML 或 ICLR）能力的方法；以及 GDPVal，你知道，它有助於衡量（machine learning papers from like ICML or iClear and GDPVal, which, you know, helped measure how well）
- `34:10` 模型在跨越 40 多種職業的真實世界任務上的表現。而所有這些的目標一直是，你知道，（models could perform on real world tasks across, you know, over 40 occupations. And the goal for all of）
- `34:16` 模型現在看起來可能還不夠好，但如果你繪製它們如何隨著（these has been, you know, the models might not seem good now, but if you just plot how they increase with）
- `34:22` 每一代模型結果的改善而增加。通常當人們說，（each, you know, the results that improve with each model generation. Often when people say like,）
- `34:27` 喔，好吧，我預期這需要一年左右的時間，他們會過度預期（oh, well, I expect this will take like a year or whatever, they like over, they over expect in terms）
- `34:33` 飽和一個基準測試需要多少時間。甚至連我自己或我團隊成員的（of how much time it will take to saturate a benchmark. And like even my own or people on my team's）
- `34:38` 預測，對於事情變化得有多快，通常都不夠有野心。所以我只是認為（predictions are often like not ambitious enough for how fast things will change. And so I just think）
- `34:45` 我們試圖盡一份心力，協助讓世界了解什麼是可能的。我認為其中一些（we're trying to do our service and helping inform the world about what is possible. I think some of）
- `34:50` 研究加速 evals 特別有趣。例如當我們剛開始時，（these research acceleration evals in particular are quite interesting. Like when we first started,）
- `34:56` 我們有一個稱為 OpenAI 研究面試 eval 的 eval，它只是將我們（we had this eval called the OpenAI Research Interview eval, which was just taking the researcher）
- `35:01` 詢問申請 OpenAI 的研究人員的問題放入 eval 中。而模型非常（questions that we asked people applying to OpenAI and putting those in an eval. And the model blasted）
- `35:06` 快速地通過了測試。它現在絕對可以通過我們的面試，（through that like pretty, pretty quickly. It's like definitely can pass our interviews right now,）
- `35:10` 我認為這引發了一連串後續問題，例如我們如何確保（which I think has caused a whole other slew of downstream questions on like, how do we make sure）
- `35:16` 人們不會在面試中作弊，以及我們如何真正衡量研究人才？（people don't cheat on the interviews and like, how do we actually measure research talent?）
- `35:21` 但我認為這一切都非常有用，因為衡量內部進展，這是一種（But I think all of this is very useful because measuring internal progress, it's like kind of）
- `35:27` 衡量模型將如何持續變得更好、更快的槓桿方式，也就是說，（a way to measure the lever by which the models will keep getting better, faster, like sort of the）
- `35:31` 改善斜率的加速。是的，我認為擁有衡量（acceleration of the slope of improvement, so to speak. And yeah, I think having ways to measure）
- `35:39` 模型進展的方法是很好的資訊。（model progress is just good information.）
- `35:42` 我聽說在一些已經存在一段時間的 evals 中，結果發現（I've heard that in some of the evals that were out there for a while that it turned out that there）
- `35:48` 問題中實際上存在錯誤，這是某些 evals 的一個問題，也就是（were actually errors in the questions, that that was an issue with some of the evals, that that was）
- `35:52` 一些公開可用的 evals，實際上你無法獲得超過三分之一的分數。而且如果你（some of the publicly available ones where actually you couldn't score above a third level. And if you）
- `35:56` 做到了，那實際上是因為你在資料上進行了訓練，人們查看了這一點並發現（did, it was actually because you were training on the data and people looked at that and found out）
- `35:59` 喔，實際上，這不是正確的答案。（like, oh, there's actually, this is not the right answer.）
- `36:02` 是的。這是許多公開基準測試的一個問題。我認為，所以最初的原因（Yeah. This is a problem with a lot of public benchmarks. I think like, so the original reason for）
- `36:07` 對於 Sweebench Verify 是因為我們想要執行 Sweebench，但其中一半的問題（Sweebench Verify was because we wanted to run Sweebench and it was half the problems were like）
- `36:11` 要麼損壞，要麼規格說明不足。而且，你知道，業界的人們正在發布結果（either broken or underspecified. And, you know, people in the industry were publishing results）
- `36:16` 作為衡量你做得多好的指標。我們當時想，好吧，我們至少應該嘗試修復它，（on this as some metric of how well you did. And we were like, well, we should at least try to fix）
- `36:19` 然後分享它，這樣我們就能有一個更好的衡量標準。但我認為其中一個原因是（it and then like share that so we can have a better yardstick. But I think one of the reasons that）
- `36:26` 公開的基準測試或許不像我們希望的那樣經過嚴格的實戰驗證，不是嗎？（public benchmarks maybe aren't always as, you know, battle tested as we'd like is that not,）
- `36:32` 它們往往像是某人在實驗室裡，比如學術實驗室，有個好點子，（they tend to be like, you know, someone in a lab, like an academic lab, like had a good idea and）
- `36:38` 想要寫篇論文，但他們從未需要在大規模的生產環境中執行該評估，或是為了發布產品而進行生產等級的評估掃描。（like wanted to write a paper, but they never had to run that eval at scale and like production）
- `36:42` 當你在大規模環境下執行這些東西時，它可能會崩潰或失效，而你會發現所有這些錯誤。（training run or production, like level eval sweep for a launch. And just when you run some of this）
- `36:47` 所以我認為，待在實驗室並更貼近產品，是確保測量品質極高的一種強制機制，（stuff at scale, it like breaks or falls over and you like catch all of these bugs. And so I kind）
- `36:52` 因為我們做這些不是為了在論文裡看起來好看。（of think sitting in a lab and being closer to product is a forcing function for making sure the）
- `36:57` 我們做這些是因為它必須運作，因為它必須為我們大規模的系統運作。（quality of your measurements is really high because like, we're not doing this, like look good）
- `37:02` 所以這在某種程度上強制要求了高品質。（in a paper. We're like doing this, like it has to work because it has to work for our systems at）
- `37:06` 而且似乎會發生的情況之一是，這些模型變得非常強大。（scale. So it kind of forces the quality to be high.）
- `37:09` 有時它們非常擅長，有時它們能解決一個問題，但會採取某種最懶惰的路徑，（And it seems like kind of one of the things that can happen is these models become incredibly）
- `37:14` 它們可以給你背誦出來的答案，而不是真正去解決它。（capable. Sometimes they're very good at, sometimes they can solve a problem that they'll take sort）
- `37:19` 我們在計數，以及一個單字中有多少個字母之類的問題上看到了這一點。（of the laziest path and kind of, they can, they can give you the memorized answer instead of solving）
- `37:22` 通常模型是這樣的，如果你正確地提示它，它會得到正確答案。（it. And we saw that with like counting and like how many words are in it, are many letters in a）
- `37:26` 但如果你沒有用正確的方式提示它，它就會隨便丟給你一個答案。（character and a word or whatever. And it was often the model, if you prompt it right, it would get）
- `37:30` 沒錯。這引出了各種有趣的觀念。我的意思是，這裡有一個關於記憶的觀念，（the answer right. But if you didn't prompt it the right way, it would just sort of throw you an answer.）
- `37:34` 也就是模型實際上知道答案，而不必真正思考或推理來解決。它只是在複述它已經知道的東西。（Yeah. That brings up all sorts of interesting concepts. I mean, so there's this one concept）
- `37:38` 這使得測量結果沒那麼有用，因為你只是在測量你是否剛好在該資料上進行了大量訓練，（of memorization, which is the idea that the model literally knows the answer and doesn't have to）
- `37:42` 而不是模型是否學會了你試圖測量的 skill、工具或能力。（really think or reason to solve. It's just like regurgitating something it already knows. And that）
- `37:47` 所以避免這種情況的一種方法是，試著對你的資料保持非常乾淨和嚴謹，（makes the measurement not super useful because you're just measuring whether you happen to have）
- `37:51` 不要包含任何你想測量的基準測試或評估。這有助於解決你提出的第一個問題。所以這是一件事。（trained on that data a ton versus whether the model learned the skill that you or tool or capability）
- `37:56` 然後還有另一件事，模型可能會進行獎勵駭客行為，或者有時會為了通過評估而作弊。（you were trying to measure. So that's one way to avoid that is to try to be really clean and）
- `38:00` 這很大程度上是一個關於擁有乾淨評估設計的問題，你需要在大規模環境下測試這些，（disciplined about your data and not including any benchmarks or any evals that you want to）
- `38:05` 看看是否有任何駭客行為，確保你測試的那些環境中，模型無法進行這些駭客行為。（measure. And that helps solve sort of the first problem that you laid out. So that's one thing.）
- `38:11` 這只需要大量的品質控制，以確保評估不會過度容易被破解。沒錯。（And then there's this other thing where like the model can kind of like reward hack or sometimes）
- `38:14` 因為似乎有一些非常簡單的評估，像是小學數學之類的，（like cheat to solve an eval. And that's very much a question of having clean eval design where you）
- `38:20` 如果模型稍微改變一下，一些早期的模型就會感到困惑，並給你錯誤的答案，儘管它實際上是有能力解決的。（like sort of test these at scale, see if there's any hacks, make sure those environments that you're）
- `38:25` 但它只是覺得，喔，這個我會。然後，你知道，這也發生在像是「我該開車去洗車嗎？」這類問題上。（testing don't have the hacks as something that's possible for the model to do. And that just requires）
- `38:30` 沒錯。所以模型可能會被騙，對我來說，模型應該要表現得更好，它應該要更聰明。（a lot of quality control to make sure like the eval is not overly hackable. Yeah.）
- `38:35` 我們也應該讓模型對被欺騙這件事更具穩健性。（Yeah. Because it seems like there were some very simple ones like grade school math and whatnot that）
- `38:38` 但這也與能力引導的觀念有關，或者說試圖以最佳方式測量模型，這對我們的安全測試尤其重要。（models, if you just change it a little bit, some of the earlier models would get confused and give）
- `38:41` 例如，如果你想測量模型發現漏洞的能力，或者進行一些網路安全相關的工作，（you the wrong answer that was actually capable of solving it. But it just goes, oh, this one,）
- `38:45` 你想要確保模型不會只是被像那樣的問題給騙了。你真正測量的是真實的能力。（I got it. And then, you know, that's happened to like, you know, should I drive my car to the）
- `38:49` 所以這裡有很多提示詞調整，以及改變 harness，有時甚至進行微調，（car wash your problem? Yeah. Yeah. So like the models can get tricked to me, like the model）
- `38:54` 讓模型做好最大程度的準備來解決我們所做的挑戰，以確保如果我們說，喔，模型在某些高風險能力上表現不好，（desert, like if it didn't get to do well on that, like it, it should have been smarter. Like we should）
- `38:58` 我們在說這句話之前可以更有把握。當我還是個孩子時，我喜歡讀這些《Encyclopedia Brown》的故事，（also like have the models be a bit more robust to being tricked. But this also relates to this）
- `39:03` 能力誘發（capability elicitation），或者說設法用最好的方式衡量模型，這一點（idea of capability elicitation or like trying to measure the models in the best way, which is）
- `39:09` 對我們的安全測試格外重要。舉例來說，如果你想衡量模型（especially important for our safety testing. Like, for example, if you want to measure how well the）
- `39:14` 能多好地找出漏洞、或處理一些資安方面的工作，你會想（model can find vulnerabilities or, you know, do some of the cybersecurity stuff, you want to make）
- `39:19` 確保模型不是單純被那類題目給騙了，你真正衡量到的是它真實的（sure the model is not just getting tricked by the problem like that. You really measured the true）
- `39:24` 能力。所以這當中有很多提示詞調校、調整 harness，有時候（capability. And so there's a lot of like prompt tuning and like changing the harness and sometimes）
- `39:28` 甚至會做微調，讓模型處於最佳狀態去解決那個我們設定的挑戰，（like even doing like a fine tune to get the model maximally ready to solve that challenge that we do）
- `39:34` 為的是確保——當我們說某個模型不擅長某種高風險能力時，我們能更有（to make sure if we say, oh, the model is not good at some like very risky capability, we can be a bit）
- `39:39` 把握再下這個結論。我小時候很愛讀《百科全書布朗》（Encyclopedia Brown）那些故事，（more sure before we say that. When I was a kid, I loved reading these Encyclopedia Brown stories,）
- `39:44` 那種小小的推理謎題，你得自己解開。你知道嗎，為了 GPT-4，我會自己編寫客製謎題，以防（these little mysteries and you had to solve them. You know, GPT-4, I would write custom ones for it just in）
- `39:49` 有人早就把這些答案全洩漏到網路上。但那樣做其實挺麻煩的。（case somebody had like tipped all these answers to it out there. But that was a pain to kind of do that.）
- `39:52` 而且一想到現在我可以讓模型（but that was a pain to kind of do that and it's exciting to think now i can have a model）
- `39:56` 幫我寫出我構想的新評估（eval），就覺得很興奮。那麼，這些模型現在到底幫上多少忙呢？（write something i come up with some new eval so how helpful have the models been now for）
- `40:01` 嗯，它們半有用吧。好的，嗯，我想我們正處於模型開發的這種階段，（yeah um they're semi-useful yeah okay um i think we're in this like phase of model development）
- `40:09` 嗯，有時輸出結果仍然有點草率，是的，它們需要像人類的品質控管（QC）或（where um sometimes the outputs are still kind of sloppy yeah and they require like um human qc or）
- `40:16` 監督來確保品質仍然很高，而且我們沒有被騙，所以我會（like oversight to make sure the quality is still high and like we're not getting tricked so i would）
- `40:20` 人們有時會對我們在評估中仍然需要大量的人力介入感到驚訝，這只是因為評估的品質可能比訓練資料更為關鍵，你必須確保你測試的每一個資料點都具有極高的品質。（say people sometimes are surprised that we still have a lot of human and intervention and）
- `40:26` 這就是為什麼在某些領域中，人為的觸感會顯得相當重要。（involvement in the evals just because that's something you know evals can be a lower end）
- `40:30` 我們觀察到一些有趣的趨勢，那些實際運用到人工智慧的工作似乎需求量更大，（than training data and you want to make sure every single point that you're testing every data point）
- `40:34` 因為它提升了人們的生產力。你是如何追蹤這一點的？你如何尋找你認為會產生影響的領域？（is very high quality um and so this is one of the areas where like a human touch can be quite nice）
- `40:39` 沒錯，這些都是非常困難的問題。（we're seeing some interesting trends where jobs that actually touch ai seem to be more in demand）
- `40:45` 我認為人們對於我們的模型未來能完成多少工作，以及完成的速度有多快，還沒有建立起正確的預期。（because it's made people more productive how are you tracking this how do you look for areas where）
- `40:50` 目前模型大多擅長處理單一任務，而非完整的工作。一份工作包含的內容遠多於單一任務，對吧？（you think this is going to have an impact yeah these are very difficult questions um）
- `40:55` 你必須找出自己想做什麼、處理模糊不清的情況，你可能還有需要協作與溝通的同事，（i think that uh our i think people are not calibrated to how much work our models will be）
- `41:01` 然後你可能會決定要執行什麼任務，再將其交給模型。這就是我們目前所處的階段，（able to do um and how quickly like across a wide variety of jobs and um right now the models are）
- `41:09` 我的意思是，即使在我的工作中，模型也只是在為我執行個別任務，但我仍然在進行大量的思考與規劃，（still mostly just good at tasks versus a job like there's a lot to a job than a task right like you have）
- `41:14` 諸如此類的事情。我認為人們甚至還沒意識到這一點。（to figure out what you want to work on navigate like ambiguity like you might have co-workers that you're）
- `41:19` 我覺得軟體與研究領域的人對此有更準確的預期，或者說我所謂的「預期」，是指他們意識到模型的能力有多強，（collaborating with and like communicating with and then you might like figure out what task you want）
- `41:23` 相較於我在其他產業的朋友，我希望大家能多嘗試使用這些模型並親眼見證，因為那些率先嘗試並親眼看到的人，（to do and then give that to a model and that's kind of the phase we're at now where it's a lot）
- `41:27` 他們會開始真正理解。但我也認為，模型在某個時間點也將開始具備處理「委派」部分的能力，（of i mean even in my job the model is like doing individual tasks for me but i'm still doing a lot of the）
- `41:32` 或許距離現在不會太遠。像是決定要做什麼、處理模糊性、撰寫模型隨後要執行的規格書等。（thinking and planning um and that sort of thing and i think people aren't even calibrated to that）
- `41:37` 人們真的應該開始思考，在一個完全實現人工智慧的世界裡會發生什麼事？（like i feel like people in software and research are a lot more calibrated or by calibrated i mean）
- `41:43` 即使只是數位工作，模型也能決定要做什麼、執行它、與現實世界互動。（like realize how capable the models are um compared to some of my friends in other industries and i）
- `41:49` 你知道，現在已經有整個企業，你可以看到像獨角獸企業的故事，它們大部分由人工智慧運作，只有少數員工，卻能創造出巨大的價值。（like wish people just tried the models more and saw because the people who try and see first like）
- `41:54` 所以我確實認為這是一個問題：我們是否意識到這件事的規模有多大？（they'll start to really get it um but i also think the models are going to start to be able to do the）
- `41:59` 機會空間正在變得越來越大。我認識的所有人，那些最相信人工智慧的人，那些一直使用像 Codex 這類工具的人，現在做得更多了，（stuff like the delegating part at some point too um maybe not too far from now the um figuring out）
- `42:06` 他們現在生產力更高，因為他們不必親自處理那些任務。隨著人工智慧在處理特定工作上變得更好，太棒了，現在我有五項工作需要完成，因為我可以做得更多。（what to work on navigating ambiguity like writing the spec that the model then executes on and people）
- `42:11` 我認為我們對於潛力光錐的想像，比我們能想像的還要大，而我認為這些工具只是幫助我們更快達到目標，而不是縮小它。（should really start to think about okay what is what happens in the maximally agi pilled world where）
- `42:16` 我認為這可能是多種因素的結合。沒錯，即使你擁有可以加速文書工作的模型，試想一下藥物的臨床試驗，（even just for digital work the model can come up with what to do do it execute it on it like interact）
- `42:22` 這些人花費數月時間整理所有文書工作，數百頁關於為什麼他們應該被允許進行試驗的報告，（with the real world like you know if it's you know there's entire businesses that now like you see like）
- `42:27` 然後提交給 FDA，結果有 35% 的機率因為犯錯或遺漏而被拒絕，他們必須修改，最後才能進行試驗。你知道，這些流程雖然很好，但確實很耗時。（stories of like unicorns that where it was like mostly ai and a few employees that were like able to drive）
- `42:32` 然後試驗過程中有對照組之類的，你必須記錄症狀，並長時間追蹤這些情況，（all of this value um and so i do think there's this question of you know are we realizing how big）
- `42:39` 接著進行大量的資料分析。這其中很大一部分只是文件記錄或資料分析，或者說是典型的數位工作。（this might be presenting the opportunity space is getting bigger everybody i know the most the）
- `42:43` 我認為如果模型能協助加速這一切，無論是在健康、能源、製造、政策、研究還是教育領域，這都將具有極大的加速作用。（most agi people i know the people who are using tools like codex all the time are doing way more）
- `42:47` 我們希望能擁有更快、更便宜、更好的商品，這對人們來說真的很好，對個別消費者來說也非常有利。（now they're more productive now because they don't have to do the tasks and the jobs as the ai gets）
- `42:53` 所以我認為這是人們應該感到興奮的事情，但我們也應該深思熟慮如何引導向那個世界的轉型，以一種周全且負責任的方式。（better at handing certain jobs like cool there are five jobs i need done now because i can do more and）
- `42:58` 太棒了，謝謝你，Chijel，謝謝你邀請我。（i think that we just think about the the light cone of the potential where we can be is bigger than we）
- `43:02` 可以想像，而且我認為這些工具只是幫助我們更快達到目標，而不是縮小它，我認為這（can imagine and i think these tools just help us get there faster not narrow it i think it's）
- `43:07` 可能是一些事物的混合，是的，即使你有可以加速文書工作的模型，試想一下（probably some mix of things yeah even if you have models that can speed up paperwork like think）
- `43:11` 像是藥物的臨床試驗，對吧？這些人花了幾個月的時間整理（about like like a clinical trial for a drug right it's like these people spend months putting together）
- `43:17` 收集所有這些文書工作，像是數百頁關於為什麼他們應該被允許進行試驗的資料，（gather all this paperwork like hundreds of pages of like why they should be able to do the trial and）
- `43:21` 然後他們將其提交給 FDA，接著有 35% 的機率被拒絕，因為他們（they like submit it to the fda and then there's like a 35 percent chance it got rejected because they）
- `43:26` 犯了錯或遺漏了什麼，他們進行修改，最後你才能進行試驗，你知道這些（like made a mistake or forgot something they revise and finally you can do the trial and you know these）
- `43:31` 流程是好的，但這確實需要很長時間，然後試驗是，你知道，你有一個案例和（processes are good but it just takes a long time and then the trial is you know you have a case in a）
- `43:36` 對照組之類的，你正在記錄症狀，嗯，並追蹤這些，就像只是（control or whatever and you're like documenting symptoms um and tracking these for like just）
- `43:41` 長時間記錄發生的事情，然後進行大量的資料分析，這其中很大一部分（documenting what happens for a long time and then doing a bunch of data analysis like a lot of this）
- `43:45` 只是文件記錄或資料分析，或者說是非常經典的數位工作，我認為如果（is just documentation or data analysis or sort of like very classically digital work and i think if）
- `43:51` 大型語言模型可以協助加速這一切，你知道的，無論是在醫療、能源、製造業、政策方面（models can help accelerate all parts of this you know for health for energy manufacturing policy）
- `43:56` 研究與教育，這將會非常有加速作用，我們希望未來能擁有更快、更便宜、更好的（research education this will be very accelerative we will have hopefully you know faster cheaper better）
- `44:03` 商品，這對大眾來說確實是好事，對個別消費者而言也非常有利，所以我認為（goods and that's really good for people it's like very good for the individual consumer so i think）
- `44:08` 這是一件人們應該感到興奮的事情，但我們應該非常審慎地思考如何（that is like something people should be excited about but we should be very thoughtful about how）
- `44:12` 引導向那個世界的過渡，嗯，以一種深思熟慮且負責任的方式（to navigate the transition to that world um in a way that's thoughtful and like um responsible）
- `44:18` 太棒了，謝謝你，Chijel，謝謝你邀請我（excellent thank you chijel thank you for having me）

## 標籤

Benchmark, LLM, 訪談, OpenAI
