# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Amit Shekhar (@amitiitbhu) · 平台：X (Twitter) · 日期：2026-04-20

> 原始來源：https://x.com/amitiitbhu/article/2045390052755411114

## 中文摘要

LLM工程師必讀12篇論文精選。

這份清單彙整人工智慧領域12篇奠基性論文，涵蓋從Transformer架構到模型對齊的關鍵進展，每篇皆由作者解讀其核心洞見，強調對現代大型語言模型（LLM）的實務影響。

**Transformer革命開端**  
「Attention Is All You Need」論文引入Transformer架構，透過self-attention取代遞迴結構，成為驅動所有現代LLM的核心架構。作者提供解讀文章，幫助工程師掌握其運作原理。

**BERT雙向理解突破**  
「BERT」論文提出masked language modeling，並解釋雙向脈絡為何使BERT成為理解與分類任務的預設選擇，提升模型對語言脈絡的精準捕捉。

**GPT-3少樣本學習**  
「GPT-3: Language Models are Few-Shot Learners」展示175B參數的decoder-only模型，如何透過提示中的少量範例實現in-context learning，無需額外訓練即可習得新任務。

**Scaling Laws預測訓練**  
「Scaling Laws for Neural Language Models」揭示損失值如何隨著運算資源、資料量與參數規模可預測地下降，讓工程師在耗費單一GPU小時前，即能規劃模型大小與訓練策略。

**Chinchilla計算最優**  
「Chinchilla」論文指出大多數大型模型訓練不足，理想比例為每個參數約20 token；在固定運算預算下，較小模型搭配更多token訓練，勝過較大模型使用較少token的表現。

**InstructGPT對齊ChatGPT**  
「InstructGPT」論文詳述ChatGPT背後方法，透過監督微調（supervised fine-tuning）、獎勵模型（reward modeling）與PPO（Proximal Policy Optimization）的RLHF，將原始文字預測器轉化為實用助手。

**Chain-of-Thought推理提升**  
「Chain-of-Thought Prompting」論文證明，讓模型逐步思考，能大幅改善數學、邏輯與多步驟問題的推理表現，簡單提示即帶來顯著效果。

**RAG事實檢索生成**  
「Retrieval-Augmented Generation」介紹結合檢索器與生成器的架構，讓模型使用最新事實文件回答問題，無需重新訓練即可注入外部知識。

**LoRA參數高效微調**  
「LoRA: Low-Rank Adaptation」論文提出低階分解矩陣訓練，將可訓練參數壓縮10,000倍，而非全權重更新；此為QLoRA基礎，後續實現單GPU微調70B模型。

**LLaMA開源重塑研究**  
「LLaMA」論文顯示，訓練精良的13B模型在多數基準測試超越GPT-3，且開放權重徹底改變研究生態，加速社群創新。

**FlashAttention記憶優化**  
「FlashAttention」論文透過IO-aware attention，降低記憶體使用並加速訓練，數學公式不變。作者提供解讀文章，供工程師深入應用。

**DPO直接偏好優化**  
「DPO: Direct Preference Optimization」論文教導如何直接從偏好資料對齊模型，省去獎勵模型與強化學習步驟，簡化對齊流程。

## 標籤

LLM, 研究論文, 教學資源, Transformer, BERT