AI 自学作战地图
返回学习地图

Stanford · 系统与前沿

CS336 · 从零构建语言模型

Language Modeling from Scratch

亲手把大模型从分词、架构、并行、scaling law 到推理评测全程搭一遍,前沿压轴。

中文重点解读

这门课讲什么

斯坦福”从零构建语言模型”,整套体系的前沿压轴。亲手把一个语言模型从分词、架构、GPU/Triton、并行、scaling law 一直搭到推理与评测,全程实践。2026 春为第三次开课,新增 MoE、长上下文、Agent。

为什么重要

学完它,大模型对你不再是”调 API 的黑箱”,而是”我亲手搭过的系统”。这是从”会用 AI”跨到”会造 AI”的分水岭,也是简历上最硬的一笔。

怎么学不踩坑

工程量极大,前置一定要扎实(CS224N 的 Transformer + Zero to Hero 的动手经验)。对算力/环境有要求,提前准备好 GPU 资源或云环境。别孤军奋战,跟着课程节奏和社区走。

学到什么程度算过关

能讲清并动手实现语言模型从数据、训练到推理的主要环节。

高频英文术语

“从零搭语言模型”的前沿压轴课,这些词是工程一线的硬通货:

  • Tokenizer / Byte-Pair Encoding (BPE) 分词器 / 字节对编码 —— 把文本切成子词单元的主流方法。
  • Transformer —— 语言模型的基础架构。
  • Attention 注意力机制 —— Transformer 的核心运算。
  • Pretraining 预训练 —— 在海量文本上学通用能力的阶段。
  • Scaling Law 缩放定律 —— 模型/数据/算力与效果之间的经验规律。
  • Mixture of Experts (MoE) 混合专家 —— 只激活部分子网络以省算力的架构。
  • Fine-tuning 微调 —— 在预训练模型上针对任务再训练。
  • KV Cache 键值缓存 —— 推理时缓存注意力中间结果来加速。
  • FlashAttention —— 显存友好、更快的注意力实现。
  • Parallelism (Data / Tensor / Pipeline) 并行 —— 多卡训练大模型的几种切分方式。
  • Inference 推理 —— 训练好后实际生成文本的过程。
  • Evaluation / Benchmark 评测 / 基准 —— 用标准任务衡量模型能力。
  • Long Context 长上下文 —— 让模型一次处理更长输入的能力。
Key Chapters

重点章节

  • 分词与数据
  • Transformer 架构
  • GPU/Triton 与并行
  • scaling law
  • 推理与评测
  • MoE 与长上下文
Common Blocks

最容易卡在哪

  • 工程量极大,需扎实的前置
  • 对算力/环境有要求
中文配套

辅助资料

Pass Bar

学到什么程度算过关

能讲清并动手实现语言模型从数据到推理的主要环节。