这门课讲什么
MIT Media Lab 的研究生研讨课,重点是多模态 AI 与研究方法:如何读论文、如何选题、如何把想法做成项目。它不是从零实现课,而是一门”做研究的方法论”。
为什么重要
走科研/前沿方向,最稀缺的不是会调模型,而是会读前沿、会提问、会做项目。How2AI 训练的正是这套元能力,是创新层的方法论补充。
怎么学不踩坑
研讨课形式,价值全在主动读论文 + 参与讨论。别当视频课被动看完;每周精读指定论文,自己试着复述贡献、方法与局限。
学到什么程度算过关
能独立精读一篇前沿论文,并讲清它的贡献、方法与局限。
高频英文术语
这门偏多模态与研究方法的研讨课,读论文时这些词反复出现:
- Multimodal 多模态 —— 同时处理图像/文本/音频等多种信息。
- Modality 模态 —— 单一种类的信息形式(如视觉、语言)。
- Vision-Language Model (VLM) 视觉语言模型 —— 联合理解图像与文本的模型。
- Representation 表征 —— 模型对数据学到的内部向量表示。
- Embedding 嵌入 —— 把对象映射成向量,便于计算相似度。
- Contrastive Learning 对比学习 —— 拉近正样本、推远负样本来学表征。
- CLIP —— 用图文对训练的经典多模态模型。
- Ablation Study 消融实验 —— 逐个去掉组件看各自贡献,论文标配。
- Baseline 基线 —— 用来对比的参照方法。
- Benchmark 基准 —— 衡量方法好坏的标准数据集/任务。
- State-of-the-Art (SOTA) 当前最优 —— 某任务上目前最好的结果。
- Reproducibility 可复现性 —— 别人能否重跑出你的结果,做研究的底线。
重点章节
- 多模态表示
- 论文精读方法
- 研究选题
- 项目方法论
最容易卡在哪
- 研讨课形式,需主动读论文
- 不是动手实现课,重在方法