AI 自学作战地图

返回学习地图

UC Berkeley · 深度学习

CS285 · 深度强化学习

Deep Reinforcement Learning

深度强化学习系统课，是 Agent 与对齐（RLHF）的基础，大模型时代更重要。

去官方学习 ↗

中文重点解读

这门课讲什么

伯克利的深度强化学习系统课：策略梯度、Actor-Critic、Q 学习、基于模型的 RL、探索与离线 RL。RL 是智能体（Agent）与对齐（RLHF）的基础。

为什么重要

大模型时代 RL 反而更重要——RLHF、后训练、Agent 都建立在它之上。想做对齐、做能决策的智能体，CS285 是绕不开的底座。

怎么学不踩坑

数学密度高、训练不稳定难调是公认难点。建议配李宏毅的中文 RL 讲解串直觉，先把策略梯度这条主线吃透，再扩展到其他算法。需要扎实的深度学习与概率基础。

学到什么程度算过关

能实现并训练一个基础 RL 算法，并解释它和 RLHF 的关系。

高频英文术语

强化学习的核心词汇，也是理解 RLHF / Agent 的基础：

Policy 策略 —— 在某状态下该采取什么动作的规则，RL 要学的东西。
Policy Gradient 策略梯度 —— 直接对策略求梯度来优化的一类方法。
Q-Learning Q 学习 —— 通过学习动作价值 Q 来决策的经典算法。
Value Function 价值函数 —— 估计某状态/动作未来能拿多少回报。
Actor-Critic 演员-评论家 —— 策略（演员）与价值（评论家）协同训练的框架。
Reward 奖励 —— 环境给的反馈信号，RL 的优化目标。
Markov Decision Process (MDP) 马尔可夫决策过程 —— RL 问题的标准数学框架。
Exploration vs Exploitation 探索 vs 利用 —— 试新动作还是用已知最优，RL 的核心权衡。
Off-Policy / On-Policy 离策略 / 在策略 —— 用别的策略数据学 / 只用当前策略数据学。
Model-Based RL 基于模型的强化学习 —— 先学环境模型再做规划。
Temporal Difference (TD) 时序差分 —— 用相邻时刻估计差来更新价值。
RLHF 基于人类反馈的强化学习 —— 大模型对齐的关键应用。

Key Chapters

重点章节

策略梯度
Actor-Critic
Q 学习
模型基础 RL
探索与离线 RL

Common Blocks

最容易卡在哪

数学密度高、训练不稳定难调
需要 DL 与概率基础

中文配套

辅助资料

李宏毅 · 强化学习 ↗ 来源：李宏毅 / 台大

Pass Bar

学到什么程度算过关

能实现并训练一个基础 RL 算法，并解释它和 RLHF 的关系。