AI 自学作战地图
返回学习地图

UC Berkeley · 深度学习

CS285 · 深度强化学习

Deep Reinforcement Learning

深度强化学习系统课,是 Agent 与对齐(RLHF)的基础,大模型时代更重要。

中文重点解读

这门课讲什么

伯克利的深度强化学习系统课:策略梯度、Actor-Critic、Q 学习、基于模型的 RL、探索与离线 RL。RL 是智能体(Agent)与对齐(RLHF)的基础。

为什么重要

大模型时代 RL 反而更重要——RLHF、后训练、Agent 都建立在它之上。想做对齐、做能决策的智能体,CS285 是绕不开的底座。

怎么学不踩坑

数学密度高、训练不稳定难调是公认难点。建议配李宏毅的中文 RL 讲解串直觉,先把策略梯度这条主线吃透,再扩展到其他算法。需要扎实的深度学习与概率基础。

学到什么程度算过关

能实现并训练一个基础 RL 算法,并解释它和 RLHF 的关系。

高频英文术语

强化学习的核心词汇,也是理解 RLHF / Agent 的基础:

  • Policy 策略 —— 在某状态下该采取什么动作的规则,RL 要学的东西。
  • Policy Gradient 策略梯度 —— 直接对策略求梯度来优化的一类方法。
  • Q-Learning Q 学习 —— 通过学习动作价值 Q 来决策的经典算法。
  • Value Function 价值函数 —— 估计某状态/动作未来能拿多少回报。
  • Actor-Critic 演员-评论家 —— 策略(演员)与价值(评论家)协同训练的框架。
  • Reward 奖励 —— 环境给的反馈信号,RL 的优化目标。
  • Markov Decision Process (MDP) 马尔可夫决策过程 —— RL 问题的标准数学框架。
  • Exploration vs Exploitation 探索 vs 利用 —— 试新动作还是用已知最优,RL 的核心权衡。
  • Off-Policy / On-Policy 离策略 / 在策略 —— 用别的策略数据学 / 只用当前策略数据学。
  • Model-Based RL 基于模型的强化学习 —— 先学环境模型再做规划。
  • Temporal Difference (TD) 时序差分 —— 用相邻时刻估计差来更新价值。
  • RLHF 基于人类反馈的强化学习 —— 大模型对齐的关键应用。
Key Chapters

重点章节

  • 策略梯度
  • Actor-Critic
  • Q 学习
  • 模型基础 RL
  • 探索与离线 RL
Common Blocks

最容易卡在哪

  • 数学密度高、训练不稳定难调
  • 需要 DL 与概率基础
中文配套

辅助资料

Pass Bar

学到什么程度算过关

能实现并训练一个基础 RL 算法,并解释它和 RLHF 的关系。