这门课讲什么
斯坦福面向 NLP 的深度学习课,理解大模型的入口。从词向量出发,一路讲到循环网络、注意力机制、Transformer、预训练与微调,直到大模型。学完它,再去看 CS336 那种”从零搭语言模型”的课,才接得上。
为什么重要
今天几乎所有热门方向——LLM、RAG、Agent——底座都是 Transformer。CS224N 把”从词向量到 Transformer”这条主线讲透,是把大模型从”黑箱”变成”看得懂的结构”的关键一课。
怎么学不踩坑
Transformer 那一节是分水岭:卡在这里就很难往下走,建议配李宏毅的中文讲解和「Attention is All You Need」原论文反复串几遍,直到能自己讲清自注意力在算什么。作业数学与工程并重,耗时,留足时间。
学到什么程度算过关
能讲清自注意力机制,并用预训练模型完成一个文本分类或微调任务。
高频英文术语
这条“从词向量到 Transformer”的主线,术语就是路标:
- Word Embedding 词向量 / 词嵌入 —— 把词表示成向量,语义近则向量近。
- word2vec —— 最经典的词向量训练方法。
- Tokenization 分词 —— 把文本切成模型能处理的 token。
- Recurrent Neural Network (RNN) 循环网络 —— 早期处理序列的结构。
- Attention 注意力机制 —— 按相关度加权聚合信息,全课核心。
- Self-Attention 自注意力 —— 序列内部互相计算注意力,Transformer 的引擎。
- Transformer —— 当今几乎所有大模型的底层架构。
- Encoder / Decoder 编码器 / 解码器 —— 理解输入 / 生成输出的两半结构。
- Pretraining / Fine-tuning 预训练 / 微调 —— 先大规模学通用、再小数据学专用。
- Language Model 语言模型 —— 预测下一个词的模型,LLM 的本体。
- Perplexity 困惑度 —— 衡量语言模型好坏的常用指标。
- Beam Search 束搜索 —— 生成文本时保留多个候选的解码策略。
重点章节
- 词向量
- 循环网络与注意力
- Transformer
- 预训练与微调
- 大模型
最容易卡在哪
- 数学与工程并重,作业耗时
- Transformer 一节是分水岭,卡住就难往下
辅助资料
- 李宏毅 · 深度学习与 LLM 章节 ↗ 来源:李宏毅 / 台大