这门课讲什么
斯坦福的机器学习系统设计课,讲的是模型之外的工程:数据工程、模型部署、监控与迭代、系统设计中的各种权衡。作者 Chip Huyen 的框架很对——把”做一个能上线、能维护的 ML 系统”讲成体系。
为什么重要
很多自学者卡在”模型会训,但不知道怎么变成真东西”。这门课补的正是从建模到落地的工程视角,是路径 A 通往”能做项目”的关键一环。
怎么学不踩坑
课程材料偏旧(停在 2022 年前后),没覆盖 LLM 时代的工程实践。 建议以这门课打地基,再配作者的新书《AI Engineering》(2024) 补上大模型工程那一段。课程偏理念,一定要找一个真实小项目把这些原则落地,否则容易学完就忘。
学到什么程度算过关
能为一个 ML 项目画出从数据到部署、监控的完整系统设计,并指出主要风险点。
高频英文术语
这门课讲“模型之外的工程”,这些是 ML 系统设计的行话:
- Deployment 部署 —— 把模型真正上线供人调用。
- Inference 推理 —— 模型对新输入做预测的过程(区别于训练)。
- Latency 延迟 —— 单次请求的响应时间。
- Throughput 吞吐量 —— 单位时间能处理的请求数。
- Data Drift 数据漂移 —— 线上数据分布偏离训练时,模型悄悄变差。
- Model Monitoring 模型监控 —— 持续盯线上表现与数据质量。
- Feature Store 特征存储 —— 统一管理、复用特征的基础设施。
- Pipeline 流水线 —— 数据→训练→部署的自动化链路。
- Batch vs Online 批处理 vs 在线 —— 离线成批预测还是实时逐条预测。
- A/B Testing A/B 测试 —— 用对照实验比较两版模型/策略。
- Model Serving 模型服务 —— 把模型包成可调用的线上服务。
- Versioning 版本管理 —— 对数据/模型做版本追踪,便于回滚。
重点章节
- 数据工程
- 模型部署
- 监控与迭代
- 系统设计权衡
最容易卡在哪
- 课程材料停在 2022 前后,没覆盖 LLM 工程
- 偏理念,需要自己找项目落地
辅助资料
- Chip Huyen · AI Engineering(补充书) ↗ 来源:Chip Huyen