AI 自学作战地图

返回学习地图

Stanford · 系统与前沿

CS224N · 面向 NLP 的深度学习

Natural Language Processing with Deep Learning

从词向量一路讲到 Transformer 与大模型，是理解 LLM 的入口。

去官方学习 ↗

中文重点解读

这门课讲什么

斯坦福面向 NLP 的深度学习课，理解大模型的入口。从词向量出发，一路讲到循环网络、注意力机制、Transformer、预训练与微调，直到大模型。学完它，再去看 CS336 那种”从零搭语言模型”的课，才接得上。

为什么重要

今天几乎所有热门方向——LLM、RAG、Agent——底座都是 Transformer。CS224N 把”从词向量到 Transformer”这条主线讲透，是把大模型从”黑箱”变成”看得懂的结构”的关键一课。

怎么学不踩坑

Transformer 那一节是分水岭：卡在这里就很难往下走，建议配李宏毅的中文讲解和「Attention is All You Need」原论文反复串几遍，直到能自己讲清自注意力在算什么。作业数学与工程并重，耗时，留足时间。

学到什么程度算过关

能讲清自注意力机制，并用预训练模型完成一个文本分类或微调任务。

高频英文术语

这条“从词向量到 Transformer”的主线，术语就是路标：

Word Embedding 词向量 / 词嵌入 —— 把词表示成向量，语义近则向量近。
word2vec —— 最经典的词向量训练方法。
Tokenization 分词 —— 把文本切成模型能处理的 token。
Recurrent Neural Network (RNN) 循环网络 —— 早期处理序列的结构。
Attention 注意力机制 —— 按相关度加权聚合信息，全课核心。
Self-Attention 自注意力 —— 序列内部互相计算注意力，Transformer 的引擎。
Transformer —— 当今几乎所有大模型的底层架构。
Encoder / Decoder 编码器 / 解码器 —— 理解输入 / 生成输出的两半结构。
Pretraining / Fine-tuning 预训练 / 微调 —— 先大规模学通用、再小数据学专用。
Language Model 语言模型 —— 预测下一个词的模型，LLM 的本体。
Perplexity 困惑度 —— 衡量语言模型好坏的常用指标。
Beam Search 束搜索 —— 生成文本时保留多个候选的解码策略。

Key Chapters

重点章节

词向量
循环网络与注意力
Transformer
预训练与微调
大模型

Common Blocks

最容易卡在哪

数学与工程并重，作业耗时
Transformer 一节是分水岭，卡住就难往下

中文配套

辅助资料

李宏毅 · 深度学习与 LLM 章节 ↗ 来源：李宏毅 / 台大

Pass Bar

学到什么程度算过关

能讲清自注意力机制，并用预训练模型完成一个文本分类或微调任务。