这门课讲什么
Andrej Karpathy(前 Tesla AI 负责人、OpenAI 创始成员)的免费系列,带你从手写反向传播一路到手搓一个 GPT:micrograd(自动微分)→ makemore(语言模型)→ 构建 GPT。
为什么重要
它是连接”理论”与”动手”的最佳桥梁。看完 6.S191/CS229 还是觉得模型像黑箱?跟着 Karpathy 一行行敲一遍,你会真正理解每个张量在干什么——这是做 CS336 之前最值得的热身。
怎么学不踩坑
最大的坑是”跟着敲完就忘”。每个视频看完,关掉它、自己从零复现一遍,卡住再回看。这套课的价值全在手上,不在眼睛上。
学到什么程度算过关
能不看视频,独立实现一个迷你 GPT 的训练与采样。
高频英文术语
跟着 Karpathy 一行行敲代码时,这些就是你亲手写出来的东西:
- Automatic Differentiation / Autograd 自动微分 —— 框架自动求梯度的机制,micrograd 的核心。
- Backpropagation 反向传播 —— 误差逐层回传算梯度,你会亲手实现一遍。
- Tensor 张量 —— 多维数组,深度学习的数据载体。
- Gradient 梯度 —— 指导参数往哪个方向更新。
- Neuron 神经元 —— 网络的基本计算单元。
- Multilayer Perceptron (MLP) 多层感知机 —— 由神经元堆出的基础网络。
- Loss Function 损失函数 —— 衡量预测与真实的差距。
- Bigram 二元语法 —— makemore 起步时最简单的语言模型。
- Embedding 嵌入 —— 把 token 映射成可学习的向量。
- Self-Attention 自注意力 —— 构建 GPT 时的关键模块。
- Transformer —— 这套课最终手搓出来的架构。
- Tokenizer 分词器 —— 把文本切成 token 再喂给模型。
重点章节
- micrograd 手写反向传播
- makemore 语言模型
- 构建 GPT
- 分词与训练细节
最容易卡在哪
- 跟着敲容易'抄完就忘',要自己复现
- 需要一点 Python 基础
辅助资料
- 动手学深度学习 · 从零实现 ↗ 来源:李沐 / d2l