AI 自学作战地图
返回学习地图

Stanford · 系统与前沿

CS329S · 机器学习系统设计

Machine Learning Systems Design

讲数据/部署/监控/迭代的工程化思维,框架很对;配新书补 LLM 工程。

中文重点解读

这门课讲什么

斯坦福的机器学习系统设计课,讲的是模型之外的工程:数据工程、模型部署、监控与迭代、系统设计中的各种权衡。作者 Chip Huyen 的框架很对——把”做一个能上线、能维护的 ML 系统”讲成体系。

为什么重要

很多自学者卡在”模型会训,但不知道怎么变成真东西”。这门课补的正是从建模到落地的工程视角,是路径 A 通往”能做项目”的关键一环。

怎么学不踩坑

课程材料偏旧(停在 2022 年前后),没覆盖 LLM 时代的工程实践。 建议以这门课打地基,再配作者的新书《AI Engineering》(2024) 补上大模型工程那一段。课程偏理念,一定要找一个真实小项目把这些原则落地,否则容易学完就忘。

学到什么程度算过关

能为一个 ML 项目画出从数据到部署、监控的完整系统设计,并指出主要风险点。

高频英文术语

这门课讲“模型之外的工程”,这些是 ML 系统设计的行话:

  • Deployment 部署 —— 把模型真正上线供人调用。
  • Inference 推理 —— 模型对新输入做预测的过程(区别于训练)。
  • Latency 延迟 —— 单次请求的响应时间。
  • Throughput 吞吐量 —— 单位时间能处理的请求数。
  • Data Drift 数据漂移 —— 线上数据分布偏离训练时,模型悄悄变差。
  • Model Monitoring 模型监控 —— 持续盯线上表现与数据质量。
  • Feature Store 特征存储 —— 统一管理、复用特征的基础设施。
  • Pipeline 流水线 —— 数据→训练→部署的自动化链路。
  • Batch vs Online 批处理 vs 在线 —— 离线成批预测还是实时逐条预测。
  • A/B Testing A/B 测试 —— 用对照实验比较两版模型/策略。
  • Model Serving 模型服务 —— 把模型包成可调用的线上服务。
  • Versioning 版本管理 —— 对数据/模型做版本追踪,便于回滚。
Key Chapters

重点章节

  • 数据工程
  • 模型部署
  • 监控与迭代
  • 系统设计权衡
Common Blocks

最容易卡在哪

  • 课程材料停在 2022 前后,没覆盖 LLM 工程
  • 偏理念,需要自己找项目落地
中文配套

辅助资料

Pass Bar

学到什么程度算过关

能为一个 ML 项目画出从数据到部署监控的完整系统设计,并指出主要风险点。