AI 自学作战地图
返回学习地图

Andrej Karpathy · 深度学习

Zero to Hero · 从零手写神经网络到 GPT

Neural Networks: Zero to Hero

Karpathy 带你从手写反向传播一路到手搓一个 GPT,最适合动手派。

中文重点解读

这门课讲什么

Andrej Karpathy(前 Tesla AI 负责人、OpenAI 创始成员)的免费系列,带你从手写反向传播一路到手搓一个 GPT:micrograd(自动微分)→ makemore(语言模型)→ 构建 GPT。

为什么重要

它是连接”理论”与”动手”的最佳桥梁。看完 6.S191/CS229 还是觉得模型像黑箱?跟着 Karpathy 一行行敲一遍,你会真正理解每个张量在干什么——这是做 CS336 之前最值得的热身。

怎么学不踩坑

最大的坑是”跟着敲完就忘”。每个视频看完,关掉它、自己从零复现一遍,卡住再回看。这套课的价值全在手上,不在眼睛上。

学到什么程度算过关

能不看视频,独立实现一个迷你 GPT 的训练与采样。

高频英文术语

跟着 Karpathy 一行行敲代码时,这些就是你亲手写出来的东西:

  • Automatic Differentiation / Autograd 自动微分 —— 框架自动求梯度的机制,micrograd 的核心。
  • Backpropagation 反向传播 —— 误差逐层回传算梯度,你会亲手实现一遍。
  • Tensor 张量 —— 多维数组,深度学习的数据载体。
  • Gradient 梯度 —— 指导参数往哪个方向更新。
  • Neuron 神经元 —— 网络的基本计算单元。
  • Multilayer Perceptron (MLP) 多层感知机 —— 由神经元堆出的基础网络。
  • Loss Function 损失函数 —— 衡量预测与真实的差距。
  • Bigram 二元语法 —— makemore 起步时最简单的语言模型。
  • Embedding 嵌入 —— 把 token 映射成可学习的向量。
  • Self-Attention 自注意力 —— 构建 GPT 时的关键模块。
  • Transformer —— 这套课最终手搓出来的架构。
  • Tokenizer 分词器 —— 把文本切成 token 再喂给模型。
Key Chapters

重点章节

  • micrograd 手写反向传播
  • makemore 语言模型
  • 构建 GPT
  • 分词与训练细节
Common Blocks

最容易卡在哪

  • 跟着敲容易'抄完就忘',要自己复现
  • 需要一点 Python 基础
中文配套

辅助资料

Pass Bar

学到什么程度算过关

能不看视频独立实现一个迷你 GPT 的训练与采样。