这门课讲什么
伯克利的深度强化学习系统课:策略梯度、Actor-Critic、Q 学习、基于模型的 RL、探索与离线 RL。RL 是智能体(Agent)与对齐(RLHF)的基础。
为什么重要
大模型时代 RL 反而更重要——RLHF、后训练、Agent 都建立在它之上。想做对齐、做能决策的智能体,CS285 是绕不开的底座。
怎么学不踩坑
数学密度高、训练不稳定难调是公认难点。建议配李宏毅的中文 RL 讲解串直觉,先把策略梯度这条主线吃透,再扩展到其他算法。需要扎实的深度学习与概率基础。
学到什么程度算过关
能实现并训练一个基础 RL 算法,并解释它和 RLHF 的关系。
高频英文术语
强化学习的核心词汇,也是理解 RLHF / Agent 的基础:
- Policy 策略 —— 在某状态下该采取什么动作的规则,RL 要学的东西。
- Policy Gradient 策略梯度 —— 直接对策略求梯度来优化的一类方法。
- Q-Learning Q 学习 —— 通过学习动作价值 Q 来决策的经典算法。
- Value Function 价值函数 —— 估计某状态/动作未来能拿多少回报。
- Actor-Critic 演员-评论家 —— 策略(演员)与价值(评论家)协同训练的框架。
- Reward 奖励 —— 环境给的反馈信号,RL 的优化目标。
- Markov Decision Process (MDP) 马尔可夫决策过程 —— RL 问题的标准数学框架。
- Exploration vs Exploitation 探索 vs 利用 —— 试新动作还是用已知最优,RL 的核心权衡。
- Off-Policy / On-Policy 离策略 / 在策略 —— 用别的策略数据学 / 只用当前策略数据学。
- Model-Based RL 基于模型的强化学习 —— 先学环境模型再做规划。
- Temporal Difference (TD) 时序差分 —— 用相邻时刻估计差来更新价值。
- RLHF 基于人类反馈的强化学习 —— 大模型对齐的关键应用。
重点章节
- 策略梯度
- Actor-Critic
- Q 学习
- 模型基础 RL
- 探索与离线 RL
最容易卡在哪
- 数学密度高、训练不稳定难调
- 需要 DL 与概率基础
辅助资料
- 李宏毅 · 强化学习 ↗ 来源:李宏毅 / 台大