AI 自学作战地图

返回学习地图

Stanford · 系统与前沿

CS336 · 从零构建语言模型

Language Modeling from Scratch

亲手把大模型从分词、架构、并行、scaling law 到推理评测全程搭一遍，前沿压轴。

去官方学习 ↗

中文重点解读

这门课讲什么

斯坦福”从零构建语言模型”，整套体系的前沿压轴。亲手把一个语言模型从分词、架构、GPU/Triton、并行、scaling law 一直搭到推理与评测，全程实践。2026 春为第三次开课，新增 MoE、长上下文、Agent。

为什么重要

学完它，大模型对你不再是”调 API 的黑箱”，而是”我亲手搭过的系统”。这是从”会用 AI”跨到”会造 AI”的分水岭，也是简历上最硬的一笔。

怎么学不踩坑

工程量极大，前置一定要扎实（CS224N 的 Transformer + Zero to Hero 的动手经验）。对算力/环境有要求，提前准备好 GPU 资源或云环境。别孤军奋战，跟着课程节奏和社区走。

学到什么程度算过关

能讲清并动手实现语言模型从数据、训练到推理的主要环节。

高频英文术语

“从零搭语言模型”的前沿压轴课，这些词是工程一线的硬通货：

Tokenizer / Byte-Pair Encoding (BPE) 分词器 / 字节对编码 —— 把文本切成子词单元的主流方法。
Transformer —— 语言模型的基础架构。
Attention 注意力机制 —— Transformer 的核心运算。
Pretraining 预训练 —— 在海量文本上学通用能力的阶段。
Scaling Law 缩放定律 —— 模型/数据/算力与效果之间的经验规律。
Mixture of Experts (MoE) 混合专家 —— 只激活部分子网络以省算力的架构。
Fine-tuning 微调 —— 在预训练模型上针对任务再训练。
KV Cache 键值缓存 —— 推理时缓存注意力中间结果来加速。
FlashAttention —— 显存友好、更快的注意力实现。
Parallelism (Data / Tensor / Pipeline) 并行 —— 多卡训练大模型的几种切分方式。
Inference 推理 —— 训练好后实际生成文本的过程。
Evaluation / Benchmark 评测 / 基准 —— 用标准任务衡量模型能力。
Long Context 长上下文 —— 让模型一次处理更长输入的能力。

Key Chapters

重点章节

分词与数据
Transformer 架构
GPU/Triton 与并行
scaling law
推理与评测
MoE 与长上下文

Common Blocks

最容易卡在哪

工程量极大，需扎实的前置
对算力/环境有要求

中文配套

辅助资料

李宏毅 · LLM 章节 ↗ 来源：李宏毅 / 台大

Pass Bar

学到什么程度算过关

能讲清并动手实现语言模型从数据到推理的主要环节。