AI 自学作战地图

返回学习地图

AI Safety Fundamentals · 系统与前沿

AI Safety · AI 安全与对齐 · 选读

AI Safety & Alignment (Selected Readings)

AI 安全与对齐入门选读，当下研究与产业最热的方向之一，拔尖路径至少修一门。

去官方学习 ↗

中文重点解读

这是什么

不是单一官方课，而是一个方向选读：AI 安全与对齐是当下研究与产业最热的方向之一，原有自学体系常常完全没有这条线。建议以 AI Safety Fundamentals 等公开课程为入口，按兴趣深入。

为什么重要

模型越强，“让它做我们真正想要的事”就越关键。对齐、RLHF、红队、可解释性正在成为顶尖实验室和岗位的核心议题。补上这条线，你的视野和竞争力会和只会训模型的人拉开差距。

怎么学不踩坑

材料分散、偏阅读与讨论。建议先建立”对齐问题到底是什么”的整体框架，再顺着 RLHF / 评测 / 可解释性几条具体线深入，配合你已经学过的 LLM 知识理解。

学到什么程度算过关

能讲清对齐问题是什么、RLHF 解决了什么、当前还有哪些未解难题。

高频英文术语

这条选读线材料分散，先抓住这些核心概念当锚点：

Alignment 对齐 —— 让 AI 的行为符合人类真正的意图，这条线的总命题。
RLHF 基于人类反馈的强化学习 —— 当前对齐大模型的主流方法。
Reward Hacking 奖励作弊 —— 模型钻奖励函数的空子，拿高分却没真做对。
Interpretability 可解释性 —— 看懂模型内部到底在算什么。
Robustness 鲁棒性 —— 面对扰动/异常输入仍稳定可靠。
Red-Teaming 红队测试 —— 主动攻击模型来暴露风险。
Jailbreak 越狱 —— 绕过模型安全限制的诱导手段。
Distribution Shift 分布偏移 —— 实际场景与训练数据不一致带来的风险。
Scalable Oversight 可扩展监督 —— 模型比人强时，如何仍能有效监督它。
Specification Gaming 规范博弈 —— 钻目标设定漏洞、字面达标却偏离本意。
Value Alignment 价值对齐 —— 让模型内化人类价值而非仅服从指令。
Constitutional AI 宪法式 AI —— 用一套明文原则约束模型行为的方法。

Key Chapters

重点章节

对齐问题概述
RLHF 与偏好学习
红队与评测
可解释性

Common Blocks

最容易卡在哪

材料分散、偏阅读与讨论
需要 LLM 基础理解

Pass Bar

学到什么程度算过关

能讲清对齐问题是什么、RLHF 解决了什么、还有哪些未解难题。