AI 自学作战地图
返回学习地图

AI Safety Fundamentals · 系统与前沿

AI Safety · AI 安全与对齐 · 选读

AI Safety & Alignment (Selected Readings)

AI 安全与对齐入门选读,当下研究与产业最热的方向之一,拔尖路径至少修一门。

中文重点解读

这是什么

不是单一官方课,而是一个方向选读:AI 安全与对齐是当下研究与产业最热的方向之一,原有自学体系常常完全没有这条线。建议以 AI Safety Fundamentals 等公开课程为入口,按兴趣深入。

为什么重要

模型越强,“让它做我们真正想要的事”就越关键。对齐、RLHF、红队、可解释性正在成为顶尖实验室和岗位的核心议题。补上这条线,你的视野和竞争力会和只会训模型的人拉开差距。

怎么学不踩坑

材料分散、偏阅读与讨论。建议先建立”对齐问题到底是什么”的整体框架,再顺着 RLHF / 评测 / 可解释性几条具体线深入,配合你已经学过的 LLM 知识理解。

学到什么程度算过关

能讲清对齐问题是什么、RLHF 解决了什么、当前还有哪些未解难题。

高频英文术语

这条选读线材料分散,先抓住这些核心概念当锚点:

  • Alignment 对齐 —— 让 AI 的行为符合人类真正的意图,这条线的总命题。
  • RLHF 基于人类反馈的强化学习 —— 当前对齐大模型的主流方法。
  • Reward Hacking 奖励作弊 —— 模型钻奖励函数的空子,拿高分却没真做对。
  • Interpretability 可解释性 —— 看懂模型内部到底在算什么。
  • Robustness 鲁棒性 —— 面对扰动/异常输入仍稳定可靠。
  • Red-Teaming 红队测试 —— 主动攻击模型来暴露风险。
  • Jailbreak 越狱 —— 绕过模型安全限制的诱导手段。
  • Distribution Shift 分布偏移 —— 实际场景与训练数据不一致带来的风险。
  • Scalable Oversight 可扩展监督 —— 模型比人强时,如何仍能有效监督它。
  • Specification Gaming 规范博弈 —— 钻目标设定漏洞、字面达标却偏离本意。
  • Value Alignment 价值对齐 —— 让模型内化人类价值而非仅服从指令。
  • Constitutional AI 宪法式 AI —— 用一套明文原则约束模型行为的方法。
Key Chapters

重点章节

  • 对齐问题概述
  • RLHF 与偏好学习
  • 红队与评测
  • 可解释性
Common Blocks

最容易卡在哪

  • 材料分散、偏阅读与讨论
  • 需要 LLM 基础理解
Pass Bar

学到什么程度算过关

能讲清对齐问题是什么、RLHF 解决了什么、还有哪些未解难题。