这门课讲什么
斯坦福的看家机器学习课。它不满足于”会调库”,而是从数学推导出发讲清每个算法的来历:监督学习与损失函数、广义线性模型、支持向量机、学习理论、无监督学习与 EM。Andrew Ng 创立、历经多届打磨,是 ML 领域最经典的课程之一。
为什么重要
如果说 6.390 给你工程直觉,CS229 给你的是根。理解一个算法”为什么长这样、在优化什么目标”,你才有能力在它失效时判断该换什么、怎么改——这正是自学者最稀缺的判断力。读后面的深度学习和大模型论文时,CS229 打下的数学底子会一路受用。
怎么学不踩坑
最常见的卡点是:公式能看懂,但合上讲义就不会自己推、更不会实现。 破解办法是边学边动手——每讲完一个算法,试着不看代码用 NumPy 实现一遍,再用 sklearn 对照。数学强度高,遇到推导卡住时,配李宏毅的中文课串一遍直觉,往往就通了。
讲义(cs229.stanford.edu 的 notes)本身质量极高,建议精读而不只是看录像。
学到什么程度算过关
能用 sklearn 跑通一个分类任务,并讲清训练/验证/测试集的划分、正则化的作用,以及至少两个算法”为什么这样设计”。
高频英文术语
读 CS229 的讲义和论文时,这几个词会反复出现,先混个眼熟:
- Supervised Learning 监督学习 —— 用带标签数据学输入到输出的映射,这门课的主线。
- Loss / Cost Function 损失函数 —— 衡量预测有多差,训练就是不断把它压小。
- Gradient Descent 梯度下降 —— 沿梯度反方向迭代更新参数的核心优化方法。
- Regularization 正则化 —— 给损失加惩罚项来抑制过拟合(L1 / L2)。
- Overfitting / Underfitting 过拟合 / 欠拟合 —— 模型记住了噪声 / 根本没学到规律。
- Maximum Likelihood Estimation (MLE) 极大似然估计 —— 很多算法”为什么长这样”的统一出处。
- Support Vector Machine (SVM) 支持向量机 —— 最大间隔分类器,CS229 的经典推导之一。
- Hypothesis Function 假设函数 —— 模型用来拟合数据的那个带参数的函数 h(x)。
- Cross-Validation 交叉验证 —— 划分数据反复验证,挑超参、估真实泛化能力。
- Generalized Linear Model (GLM) 广义线性模型 —— 把线性/逻辑回归等统一起来的框架。
- Expectation-Maximization (EM) 期望最大化 —— 含隐变量模型(如高斯混合)的经典求解套路。
重点章节
- 监督学习与损失函数
- 广义线性模型
- 支持向量机
- 学习理论
- 无监督学习与 EM
最容易卡在哪
- 公式能看懂但不会实现
- 数学强度高,容易在推导处中断
辅助资料
- 李宏毅 · 机器学习 ↗ 来源:李宏毅 / 台大
- 动手学深度学习 · 线性回归 ↗ 来源:李沐 / d2l