这门课讲什么
斯坦福”从零构建语言模型”,整套体系的前沿压轴。亲手把一个语言模型从分词、架构、GPU/Triton、并行、scaling law 一直搭到推理与评测,全程实践。2026 春为第三次开课,新增 MoE、长上下文、Agent。
为什么重要
学完它,大模型对你不再是”调 API 的黑箱”,而是”我亲手搭过的系统”。这是从”会用 AI”跨到”会造 AI”的分水岭,也是简历上最硬的一笔。
怎么学不踩坑
工程量极大,前置一定要扎实(CS224N 的 Transformer + Zero to Hero 的动手经验)。对算力/环境有要求,提前准备好 GPU 资源或云环境。别孤军奋战,跟着课程节奏和社区走。
学到什么程度算过关
能讲清并动手实现语言模型从数据、训练到推理的主要环节。
高频英文术语
“从零搭语言模型”的前沿压轴课,这些词是工程一线的硬通货:
- Tokenizer / Byte-Pair Encoding (BPE) 分词器 / 字节对编码 —— 把文本切成子词单元的主流方法。
- Transformer —— 语言模型的基础架构。
- Attention 注意力机制 —— Transformer 的核心运算。
- Pretraining 预训练 —— 在海量文本上学通用能力的阶段。
- Scaling Law 缩放定律 —— 模型/数据/算力与效果之间的经验规律。
- Mixture of Experts (MoE) 混合专家 —— 只激活部分子网络以省算力的架构。
- Fine-tuning 微调 —— 在预训练模型上针对任务再训练。
- KV Cache 键值缓存 —— 推理时缓存注意力中间结果来加速。
- FlashAttention —— 显存友好、更快的注意力实现。
- Parallelism (Data / Tensor / Pipeline) 并行 —— 多卡训练大模型的几种切分方式。
- Inference 推理 —— 训练好后实际生成文本的过程。
- Evaluation / Benchmark 评测 / 基准 —— 用标准任务衡量模型能力。
- Long Context 长上下文 —— 让模型一次处理更长输入的能力。
重点章节
- 分词与数据
- Transformer 架构
- GPU/Triton 与并行
- scaling law
- 推理与评测
- MoE 与长上下文
最容易卡在哪
- 工程量极大,需扎实的前置
- 对算力/环境有要求
辅助资料
- 李宏毅 · LLM 章节 ↗ 来源:李宏毅 / 台大