这门课讲什么
机器学习的语言是线性代数。MIT 18.06(Gilbert Strang 主讲)系统讲完向量、矩阵、线性变换、特征值与矩阵分解;**3Blue1Brown「线性代数的本质」**则用动画把这些概念还原成几何直觉。两者配合:一门给你严谨,一门给你画面感。
为什么重要
后面每一门课——从 CS229 的向量化推导,到 CS224N 的注意力矩阵——都默认你能”看懂公式里的矩阵在做什么”。这一层薄,后面全程吃力;这一层扎实,读论文时省下的力气会一路复利。这是前置,不是选修,绝不能省。
怎么学不踩坑
不必啃完 18.06 全部 35 讲。先用 3Blue1Brown 建立”矩阵 = 线性变换”的直觉(约 3 小时),再回 18.06 补特征值、SVD 等重点章节。目标是直觉 + 够用,不是考试满分。
学到什么程度算过关
能用几何语言解释矩阵乘法和特征值,看到机器学习公式里的向量化记法不发怵——就可以往下走了。
高频英文术语
后面所有课的公式都用这套语言,先把它们和中文对上号:
- Vector 向量 —— 一组有序数,机器学习里数据和参数的基本单位。
- Matrix 矩阵 —— 二维数表,既是数据也是“线性变换”本身。
- Linear Transformation 线性变换 —— 矩阵的几何本质:对空间的拉伸、旋转、压缩。
- Eigenvalue / Eigenvector 特征值 / 特征向量 —— 变换中方向不变、只被缩放的那些向量。
- Determinant 行列式 —— 衡量变换对空间体积的缩放倍数。
- Rank 秩 —— 矩阵实际“撑起”的维度数。
- Span 张成空间 —— 一组向量所有线性组合覆盖的范围。
- Basis 基 —— 能张成整个空间的一组最少向量。
- Dot Product 点积 —— 度量两个向量的相似度/投影,注意力机制的底层运算。
- Singular Value Decomposition (SVD) 奇异值分解 —— 把任意矩阵拆成旋转-缩放-旋转,降维与压缩的核心。
- Gradient 梯度 —— 多元函数上升最快的方向,梯度下降的“地图”。
重点章节
- 向量与矩阵运算
- 线性变换的几何直觉
- 特征值与特征向量
- 矩阵分解
最容易卡在哪
- 只会算不懂几何含义
- 学完不知道和机器学习有什么关系
辅助资料
- 3Blue1Brown · 线性代数的本质(中文字幕) ↗ 来源:3Blue1Brown / B站搬运