这门课讲什么
CMU 的深度学习导论,研究生强度的硬核版:从神经网络基础到 CNN、RNN、注意力机制、优化与泛化,作业要求亲手复刻 PyTorch 组件。
为什么重要
如果说 MIT 6.S191 给你快速直觉,11-785 给你的是扎实功底。亲手实现这些组件之后,你对深度学习”为什么这样训练”的理解会深一个量级——这是做强化/创新方向的底气。
怎么学不踩坑
和 6.S191 主题高度重叠,不要两门都修:求快速入门选 6.S191,求深度选这门。作业(HW)从零实现工作量很大,务必留足时间、跟上每次截止。
学到什么程度算过关
能从零实现并训练 CNN / RNN 的关键组件,并解释优化与泛化中的主要工程权衡。
高频英文术语
这门硬核课要你亲手实现组件,这些词会出现在每次作业里:
- Multilayer Perceptron (MLP) 多层感知机 —— 最基础的全连接神经网络。
- Backpropagation 反向传播 —— 逐层回传误差算梯度的核心算法。
- Convolutional Neural Network (CNN) 卷积神经网络 —— 处理图像/局部特征的结构。
- Recurrent Neural Network (RNN) 循环神经网络 —— 处理序列的结构。
- Attention 注意力机制 —— 按相关度加权聚合信息。
- Transformer —— 基于注意力的现代主力架构。
- Optimization 优化 —— 用 SGD/Adam 等把损失降下来。
- Regularization 正则化 —— 抑制过拟合的各种手段。
- Vanishing / Exploding Gradient 梯度消失 / 爆炸 —— 深网/长序列训练的典型难题。
- Connectionist Temporal Classification (CTC) 联结时序分类 —— 语音等不定长序列对齐的损失。
- Sequence Model 序列模型 —— 处理时序/文本/语音的一类模型。
- Generalization 泛化 —— 模型在新数据上的表现。
重点章节
- 神经网络基础
- CNN
- RNN 与序列建模
- 注意力机制
- 优化与泛化
最容易卡在哪
- 作业(HW)从零实现工作量很大
- 和 6.S191 主题重叠,别两门都修
辅助资料
- 动手学深度学习 ↗ 来源:李沐 / d2l