# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Andrej Karpathy (@karpathy) · 平台：X (Twitter) · 日期：2026-04-03

> 原始來源：https://x.com/karpathy/status/2039805659525644595

## 中文摘要

Andrej Karpathy 分享利用 LLM 自動構建個人知識庫的實踐方法。

Andrej Karpathy 近期提出了一種利用 LLM 構建個人知識庫的新方法，他將大量 token 運算資源從單純的程式撰寫轉移至知識管理，透過自動化流程將原始資料轉化為結構化的維基百科。

**核心流程與資料攝取**
Karpathy 的方法核心在於將原始資料（如論文、文章、程式庫、資料集、圖片）放入一個 `raw/` 目錄，並利用 LLM 遞增式地「編譯」成一個由 `.md` 文件組成的維基百科。
- 透過 Obsidian Web Clipper 將網頁文章轉為 `.md` 文件。
- 使用熱鍵將相關圖片下載至本地，確保 LLM 能輕鬆參照。
- LLM 會自動總結資料、建立反向連結（backlinks），並將資料分類為不同概念，撰寫文章並建立連結。

**IDE 與開發環境**
他選擇以 Obsidian 作為 IDE 的「前端」介面，用來檢視原始資料、編譯後的維基內容以及衍生的視覺化圖表。
- 整個維基百科的資料幾乎全由 LLM 撰寫與維護，他本人極少直接手動編輯。
- 透過安裝特定的 Obsidian plugin 來渲染與檢視資料，例如使用 Marp 製作簡報。

**問答與知識檢索**
當知識庫規模達到一定程度（例如他目前的研究專案約有 100 篇文章、40 萬字），LLM Agent 便能針對知識庫進行複雜提問。
- 他發現並不需要使用複雜的 RAG（檢索增強生成）技術，因為在這種規模下，LLM 能夠自動維護索引文件與摘要，並輕易讀取相關資料。
- 輸出形式不限於文字，LLM 可直接渲染為 Markdown 文件、Marp 格式簡報或 Matplotlib 圖片，並在 Obsidian 中呈現。
- 這些產出的結果通常會被「歸檔」回知識庫中，進一步增強知識庫的深度，形成知識累積的良性循環。

**資料維護與 Linting**
為了確保知識庫的品質，Karpathy 會執行 LLM 的「健康檢查」（health checks）。
- 檢查資料的一致性，並填補缺失的資訊（透過網路搜尋）。
- 尋找潛在的連結以發掘新的文章主題。
- LLM 甚至能主動建議進一步的研究方向與問題。

**額外工具與未來展望**
隨著專案成長，他開始開發額外工具來處理資料，例如為知識庫編寫了一個簡易的搜尋引擎，既可透過網頁介面直接使用，也能作為 CLI 工具供 LLM 在處理大型查詢時呼叫。
- 未來展望：隨著專案擴大，他考慮透過合成資料生成（synthetic data generation）與微調（finetuning），讓 LLM 將這些知識直接「內化」到權重中，而非僅依賴 context window。
- 他認為這不僅僅是一堆腳本的拼湊，而是具備開發成創新產品的巨大潛力。

**最終願景**
Karpathy 認為，未來的極致應用是讓每一個對頂尖 LLM 的提問，都能自動觸發一個由多個 Agent 組成的團隊：它們會迭代式地構建一個臨時的維基百科、進行檢查、循環修正，最後產出一份完整的報告，這遠超單純的 `.decode()` 運算。

## 標籤

LLM, 教學資源, 其他, Andrej Karpathy