AI 自学作战地图

返回学习地图

Andrej Karpathy · 深度学习

Zero to Hero · 从零手写神经网络到 GPT

Neural Networks: Zero to Hero

Karpathy 带你从手写反向传播一路到手搓一个 GPT，最适合动手派。

去官方学习 ↗ 看课程材料 ↗

中文重点解读

这门课讲什么

Andrej Karpathy（前 Tesla AI 负责人、OpenAI 创始成员）的免费系列，带你从手写反向传播一路到手搓一个 GPT：micrograd（自动微分）→ makemore（语言模型）→ 构建 GPT。

为什么重要

它是连接”理论”与”动手”的最佳桥梁。看完 6.S191/CS229 还是觉得模型像黑箱？跟着 Karpathy 一行行敲一遍，你会真正理解每个张量在干什么——这是做 CS336 之前最值得的热身。

怎么学不踩坑

最大的坑是”跟着敲完就忘”。每个视频看完，关掉它、自己从零复现一遍，卡住再回看。这套课的价值全在手上，不在眼睛上。

学到什么程度算过关

能不看视频，独立实现一个迷你 GPT 的训练与采样。

高频英文术语

跟着 Karpathy 一行行敲代码时，这些就是你亲手写出来的东西：

Automatic Differentiation / Autograd 自动微分 —— 框架自动求梯度的机制，micrograd 的核心。
Backpropagation 反向传播 —— 误差逐层回传算梯度，你会亲手实现一遍。
Tensor 张量 —— 多维数组，深度学习的数据载体。
Gradient 梯度 —— 指导参数往哪个方向更新。
Neuron 神经元 —— 网络的基本计算单元。
Multilayer Perceptron (MLP) 多层感知机 —— 由神经元堆出的基础网络。
Loss Function 损失函数 —— 衡量预测与真实的差距。
Bigram 二元语法 —— makemore 起步时最简单的语言模型。
Embedding 嵌入 —— 把 token 映射成可学习的向量。
Self-Attention 自注意力 —— 构建 GPT 时的关键模块。
Transformer —— 这套课最终手搓出来的架构。
Tokenizer 分词器 —— 把文本切成 token 再喂给模型。

Key Chapters

重点章节

micrograd 手写反向传播
makemore 语言模型
构建 GPT
分词与训练细节

Common Blocks

最容易卡在哪

跟着敲容易'抄完就忘'，要自己复现
需要一点 Python 基础

中文配套

辅助资料

动手学深度学习 · 从零实现 ↗ 来源：李沐 / d2l

Pass Bar

学到什么程度算过关

能不看视频独立实现一个迷你 GPT 的训练与采样。