AI 自学作战地图
返回学习地图

Stanford · 系统与前沿

CS224N · 面向 NLP 的深度学习

Natural Language Processing with Deep Learning

从词向量一路讲到 Transformer 与大模型,是理解 LLM 的入口。

中文重点解读

这门课讲什么

斯坦福面向 NLP 的深度学习课,理解大模型的入口。从词向量出发,一路讲到循环网络、注意力机制、Transformer、预训练与微调,直到大模型。学完它,再去看 CS336 那种”从零搭语言模型”的课,才接得上。

为什么重要

今天几乎所有热门方向——LLM、RAG、Agent——底座都是 Transformer。CS224N 把”从词向量到 Transformer”这条主线讲透,是把大模型从”黑箱”变成”看得懂的结构”的关键一课。

怎么学不踩坑

Transformer 那一节是分水岭:卡在这里就很难往下走,建议配李宏毅的中文讲解和「Attention is All You Need」原论文反复串几遍,直到能自己讲清自注意力在算什么。作业数学与工程并重,耗时,留足时间。

学到什么程度算过关

能讲清自注意力机制,并用预训练模型完成一个文本分类或微调任务。

高频英文术语

这条“从词向量到 Transformer”的主线,术语就是路标:

  • Word Embedding 词向量 / 词嵌入 —— 把词表示成向量,语义近则向量近。
  • word2vec —— 最经典的词向量训练方法。
  • Tokenization 分词 —— 把文本切成模型能处理的 token。
  • Recurrent Neural Network (RNN) 循环网络 —— 早期处理序列的结构。
  • Attention 注意力机制 —— 按相关度加权聚合信息,全课核心。
  • Self-Attention 自注意力 —— 序列内部互相计算注意力,Transformer 的引擎。
  • Transformer —— 当今几乎所有大模型的底层架构。
  • Encoder / Decoder 编码器 / 解码器 —— 理解输入 / 生成输出的两半结构。
  • Pretraining / Fine-tuning 预训练 / 微调 —— 先大规模学通用、再小数据学专用。
  • Language Model 语言模型 —— 预测下一个词的模型,LLM 的本体。
  • Perplexity 困惑度 —— 衡量语言模型好坏的常用指标。
  • Beam Search 束搜索 —— 生成文本时保留多个候选的解码策略。
Key Chapters

重点章节

  • 词向量
  • 循环网络与注意力
  • Transformer
  • 预训练与微调
  • 大模型
Common Blocks

最容易卡在哪

  • 数学与工程并重,作业耗时
  • Transformer 一节是分水岭,卡住就难往下
中文配套

辅助资料

Pass Bar

学到什么程度算过关

能讲清自注意力机制,并用预训练模型完成一个文本分类或微调任务。