这是什么
不是单一官方课,而是一个方向选读:AI 安全与对齐是当下研究与产业最热的方向之一,原有自学体系常常完全没有这条线。建议以 AI Safety Fundamentals 等公开课程为入口,按兴趣深入。
为什么重要
模型越强,“让它做我们真正想要的事”就越关键。对齐、RLHF、红队、可解释性正在成为顶尖实验室和岗位的核心议题。补上这条线,你的视野和竞争力会和只会训模型的人拉开差距。
怎么学不踩坑
材料分散、偏阅读与讨论。建议先建立”对齐问题到底是什么”的整体框架,再顺着 RLHF / 评测 / 可解释性几条具体线深入,配合你已经学过的 LLM 知识理解。
学到什么程度算过关
能讲清对齐问题是什么、RLHF 解决了什么、当前还有哪些未解难题。
高频英文术语
这条选读线材料分散,先抓住这些核心概念当锚点:
- Alignment 对齐 —— 让 AI 的行为符合人类真正的意图,这条线的总命题。
- RLHF 基于人类反馈的强化学习 —— 当前对齐大模型的主流方法。
- Reward Hacking 奖励作弊 —— 模型钻奖励函数的空子,拿高分却没真做对。
- Interpretability 可解释性 —— 看懂模型内部到底在算什么。
- Robustness 鲁棒性 —— 面对扰动/异常输入仍稳定可靠。
- Red-Teaming 红队测试 —— 主动攻击模型来暴露风险。
- Jailbreak 越狱 —— 绕过模型安全限制的诱导手段。
- Distribution Shift 分布偏移 —— 实际场景与训练数据不一致带来的风险。
- Scalable Oversight 可扩展监督 —— 模型比人强时,如何仍能有效监督它。
- Specification Gaming 规范博弈 —— 钻目标设定漏洞、字面达标却偏离本意。
- Value Alignment 价值对齐 —— 让模型内化人类价值而非仅服从指令。
- Constitutional AI 宪法式 AI —— 用一套明文原则约束模型行为的方法。
重点章节
- 对齐问题概述
- RLHF 与偏好学习
- 红队与评测
- 可解释性
最容易卡在哪
- 材料分散、偏阅读与讨论
- 需要 LLM 基础理解