Andrej Karpathy 分享利用 LLM 自動構建個人知識庫的實踐方法
AI 語音朗讀 · Edge TTS
Andrej Karpathy 分享利用 LLM 自動構建個人知識庫的實踐方法。
Andrej Karpathy 近期提出了一種利用 LLM 構建個人知識庫的新方法,他將大量 token 運算資源從單純的程式撰寫轉移至知識管理,透過自動化流程將原始資料轉化為結構化的維基百科。
核心流程與資料攝取
Karpathy 的方法核心在於將原始資料(如論文、文章、程式庫、資料集、圖片)放入一個 raw/ 目錄,並利用 LLM 遞增式地「編譯」成一個由 .md 文件組成的維基百科。
- 透過 Obsidian Web Clipper 將網頁文章轉為
.md文件。 - 使用熱鍵將相關圖片下載至本地,確保 LLM 能輕鬆參照。
- LLM 會自動總結資料、建立反向連結(backlinks),並將資料分類為不同概念,撰寫文章並建立連結。
IDE 與開發環境
他選擇以 Obsidian 作為 IDE 的「前端」介面,用來檢視原始資料、編譯後的維基內容以及衍生的視覺化圖表。
- 整個維基百科的資料幾乎全由 LLM 撰寫與維護,他本人極少直接手動編輯。
- 透過安裝特定的 Obsidian plugin 來渲染與檢視資料,例如使用 Marp 製作簡報。
問答與知識檢索
當知識庫規模達到一定程度(例如他目前的研究專案約有 100 篇文章、40 萬字),LLM Agent 便能針對知識庫進行複雜提問。
- 他發現並不需要使用複雜的 RAG(檢索增強生成)技術,因為在這種規模下,LLM 能夠自動維護索引文件與摘要,並輕易讀取相關資料。
- 輸出形式不限於文字,LLM 可直接渲染為 Markdown 文件、Marp 格式簡報或 Matplotlib 圖片,並在 Obsidian 中呈現。
- 這些產出的結果通常會被「歸檔」回知識庫中,進一步增強知識庫的深度,形成知識累積的良性循環。
資料維護與 Linting
為了確保知識庫的品質,Karpathy 會執行 LLM 的「健康檢查」(health checks)。
- 檢查資料的一致性,並填補缺失的資訊(透過網路搜尋)。
- 尋找潛在的連結以發掘新的文章主題。
- LLM 甚至能主動建議進一步的研究方向與問題。
額外工具與未來展望
隨著專案成長,他開始開發額外工具來處理資料,例如為知識庫編寫了一個簡易的搜尋引擎,既可透過網頁介面直接使用,也能作為 CLI 工具供 LLM 在處理大型查詢時呼叫。
- 未來展望:隨著專案擴大,他考慮透過合成資料生成(synthetic data generation)與微調(finetuning),讓 LLM 將這些知識直接「內化」到權重中,而非僅依賴 context window。
- 他認為這不僅僅是一堆腳本的拼湊,而是具備開發成創新產品的巨大潛力。
最終願景
Karpathy 認為,未來的極致應用是讓每一個對頂尖 LLM 的提問,都能自動觸發一個由多個 Agent 組成的團隊:它們會迭代式地構建一個臨時的維基百科、進行檢查、循環修正,最後產出一份完整的報告,這遠超單純的 .decode() 運算。
LLM Knowledge Bases
— Andrej Karpathy (@karpathy) April 2, 2026
Something I'm finding very useful recently: using LLMs to build personal knowledge bases for various topics of research interest. In this way, a large fraction of my recent token throughput is going less into manipulating code, and more into manipulating…
Oh and in the natural extrapolation, you could imagine that every question to a frontier grade LLM spawns a team of LLMs to automate the whole thing: iteratively construct an entire ephemeral wiki, lint it, loop a few times, then write a full report. Way beyond a `.decode()`.
— Andrej Karpathy (@karpathy) April 2, 2026
