LLM工程師必讀12篇論文精選

LLM工程師必讀12篇論文精選。
這份清單彙整人工智慧領域12篇奠基性論文,涵蓋從Transformer架構到模型對齊的關鍵進展,每篇皆由作者解讀其核心洞見,強調對現代大型語言模型(LLM)的實務影響。
Transformer革命開端
「Attention Is All You Need」論文引入Transformer架構,透過self-attention取代遞迴結構,成為驅動所有現代LLM的核心架構。作者提供解讀文章,幫助工程師掌握其運作原理。
BERT雙向理解突破
「BERT」論文提出masked language modeling,並解釋雙向脈絡為何使BERT成為理解與分類任務的預設選擇,提升模型對語言脈絡的精準捕捉。
GPT-3少樣本學習
「GPT-3: Language Models are Few-Shot Learners」展示175B參數的decoder-only模型,如何透過提示中的少量範例實現in-context learning,無需額外訓練即可習得新任務。
Scaling Laws預測訓練
「Scaling Laws for Neural Language Models」揭示損失值如何隨著運算資源、資料量與參數規模可預測地下降,讓工程師在耗費單一GPU小時前,即能規劃模型大小與訓練策略。
Chinchilla計算最優
「Chinchilla」論文指出大多數大型模型訓練不足,理想比例為每個參數約20 token;在固定運算預算下,較小模型搭配更多token訓練,勝過較大模型使用較少token的表現。
InstructGPT對齊ChatGPT
「InstructGPT」論文詳述ChatGPT背後方法,透過監督微調(supervised fine-tuning)、獎勵模型(reward modeling)與PPO(Proximal Policy Optimization)的RLHF,將原始文字預測器轉化為實用助手。
Chain-of-Thought推理提升
「Chain-of-Thought Prompting」論文證明,讓模型逐步思考,能大幅改善數學、邏輯與多步驟問題的推理表現,簡單提示即帶來顯著效果。
RAG事實檢索生成
「Retrieval-Augmented Generation」介紹結合檢索器與生成器的架構,讓模型使用最新事實文件回答問題,無需重新訓練即可注入外部知識。
LoRA參數高效微調
「LoRA: Low-Rank Adaptation」論文提出低階分解矩陣訓練,將可訓練參數壓縮10,000倍,而非全權重更新;此為QLoRA基礎,後續實現單GPU微調70B模型。
LLaMA開源重塑研究
「LLaMA」論文顯示,訓練精良的13B模型在多數基準測試超越GPT-3,且開放權重徹底改變研究生態,加速社群創新。
FlashAttention記憶優化
「FlashAttention」論文透過IO-aware attention,降低記憶體使用並加速訓練,數學公式不變。作者提供解讀文章,供工程師深入應用。
DPO直接偏好優化
「DPO: Direct Preference Optimization」論文教導如何直接從偏好資料對齊模型,省去獎勵模型與強化學習步驟,簡化對齊流程。
— Amit Shekhar (@amitiitbhu) April 18, 2026