多模态赛道¶
赛道概览
16 个 Lesson · 预计 3-4 周 · 从 CLIP 双塔对齐到 LLaVA 指令跟随,再到开放词汇检测与时序定位
Multimodal 赛道是 DL-Hub 最前沿的方向,覆盖视觉语言模型(VLM)的完整演进脉络。从对比学习(CLIP)出发,经过跨模态融合(BLIP)、视觉指令跟随(LLaVA)、开放词汇检测(OWL-ViT)、文档理解(OCR VLM)到视频时序定位(2D-TAN)。配套 **20 个 VLM 架构族**可供深入探索。
学习路径¶
flowchart TD
L01["01 CLIP\nRetrieval"] --> L02["02 BLIP\nCaptioning + ITM"]
L02 --> L03["03 LLaVA\nInstruction VLM"]
L01 --> L04["04 Grounding\nReferring"]
L04 --> L05["05 Mask Grounding\nMask 预测"]
L03 --> L06["06 Flamingo\nInterleaved VLM"]
L02 --> L07["07 Q-Former\nBridge VLM"]
L06 --> L08["08 Perceiver\nResampler VLM"]
L07 --> L09["09 PaliGemma\nMultitask VLM"]
L01 --> L10["10 OWL-ViT\nOpen-Vocab Detection"]
L05 --> L11["11 Grounded-SAM\nOpen-Vocab Segmentation"]
L09 --> L12["12 KV-OCR\nDocument VLM"]
L03 --> L13["13 Video VLM\nTemporal QA"]
L13 --> L14["14 BMN\nTemporal Grounding"]
L14 --> L15["15 2D-TAN\nTemporal Grounding"]
L15 --> L16["16 Multi-Scale\n2D-TAN"]
style L01 fill:#2563eb,color:#fff
style L02 fill:#2563eb,color:#fff
style L03 fill:#7c3aed,color:#fff
style L04 fill:#dc2626,color:#fff
style L05 fill:#dc2626,color:#fff
style L06 fill:#7c3aed,color:#fff
style L07 fill:#7c3aed,color:#fff
style L08 fill:#7c3aed,color:#fff
style L09 fill:#059669,color:#fff
style L10 fill:#dc2626,color:#fff
style L11 fill:#dc2626,color:#fff
style L12 fill:#059669,color:#fff
style L13 fill:#d97706,color:#fff
style L14 fill:#d97706,color:#fff
style L15 fill:#d97706,color:#fff
style L16 fill:#d97706,color:#fff 颜色说明
对齐与融合 ·
VLM 架构 ·
检测与分割 ·
多任务 / 文档 ·
视频时序
先修知识¶
| 领域 | 要求 |
|---|---|
| DL-Hub | 完成 Vision 视觉赛道 + NLP 赛道 |
| 注意力机制 | Self-Attention, Cross-Attention, Multi-Head Attention |
| 对比学习 | InfoNCE Loss 基本直觉 |
课程列表¶
| 序号 | 项目 | 代码文档 | 核心概念 |
|---|---|---|---|
| 01 | CLIP-Style Retrieval | clip_toy_retrieval | 对比学习, 双塔编码器 |
| 02 | BLIP-Lite Captioning + ITM | blip_toy_captioning | 视觉 token 融合, ITM |
| 03 | LLaVA-Lite Instruction VLM | llava_toy_instruction_vlm | 视觉前缀, 指令跟随 |
| 04 | Grounding Referring | grounding_toy_refexp | 指代表达, Box 回归 |
| 05 | Mask Grounding | mask_grounding_toy_refexp | 文本条件 Mask 预测 |
| 06 | Flamingo Interleaved VLM | flamingo_toy_interleaved_vlm | 交错图文, Few-shot |
| 07 | Q-Former Bridge VLM | qformer_toy_bridge_vlm | Cross-attention 瓶颈 |
| 08 | Perceiver Resampler VLM | perceiver_resampler_toy_vlm | 多视图 token 池化 |
| 09 | PaliGemma Multitask VLM | paligemma_toy_siglip_decoder_vlm | 提示式多任务 |
| 10 | OWL-ViT Open-Vocab Detection | owlvit_toy_open_vocab_detection | 开放词汇检测 |
| 11 | Grounded-SAM Segmentation | grounded_sam_toy_open_vocab_segmentation | 开放词汇分割 |
| 12 | Key-Value OCR Document VLM | key_value_ocr_toy_doc_vlm | 文档字段提取 |
| 13 | Video VLM Temporal QA | video_vlm_toy_temporal_qa | 短视频 QA |
| 14 | BMN Temporal Grounding | bmn_toy_temporal_grounding | 时序定位, 边界预测 |
| 15 | 2D-TAN Temporal Grounding | 2dtan_toy_temporal_grounding | 密集时序段图 |
| 16 | Multi-Scale 2D-TAN | multiscale_2dtan_toy_temporal_grounding | 多尺度时序金字塔 |
运行示例¶
VLM 技术演进脉络¶
flowchart LR
subgraph 2021["2021 — 对比对齐"]
CLIP["CLIP"]
ALIGN["ALIGN"]
ViLT["ViLT"]
end
subgraph 2022["2022 — 融合与生成"]
BLIP["BLIP"]
CoCa["CoCa"]
Flamingo["Flamingo"]
end
subgraph 2023["2023 — 指令跟随"]
BLIP2["BLIP-2"]
LLaVA["LLaVA"]
CogVLM["CogVLM"]
QwenVL["Qwen-VL"]
end
CLIP --> BLIP --> BLIP2
CLIP --> Flamingo --> BLIP2
BLIP2 --> LLaVA
BLIP2 --> CogVLM
LLaVA --> QwenVL
style CLIP fill:#2563eb,color:#fff
style BLIP fill:#059669,color:#fff
style BLIP2 fill:#7c3aed,color:#fff
style LLaVA fill:#7c3aed,color:#fff VLM Zoo¶
20 个视觉语言模型族
VLM Zoo 涵盖从 2021 年 CLIP 到 2023 年 Qwen-VL 的 20 个 VLM 架构族,所有实现均为纯 PyTorch 教学代码。
# 列出所有 VLM 架构
python scripts/vlm_zoo.py --list
# 搜索特定架构
python scripts/vlm_zoo.py --search llava
# 查看时间线
python scripts/vlm_zoo.py --timeline
# 冒烟测试
python scripts/vlm_zoo.py --smoke dlvlm:clip_tiny
VLM Zoo — 20 个视觉语言模型族完整列表(点击展开)
| Family | 年份 | 核心创新 |
|---|---|---|
| CLIP | 2021 | 对比图文预训练,双塔编码器对齐视觉与语言表示 |
| ALIGN | 2021 | 大规模噪声对比学习,使用 10 亿级噪声图文对 |
| ViLT | 2021 | Patch 级视觉语言 Transformer,去除 CNN 特征提取 |
| SimVLM | 2021 | 简单视觉语言预训练,前缀语言建模 |
| ALBEF | 2021 | 先对齐再融合,动量蒸馏 |
| LiT | 2022 | 锁定图像 Encoder 的文本微调 |
| BLIP | 2022 | 引导式图文预训练,噪声标题过滤 |
| CoCa | 2022 | 对比式描述器,统一对比和生成目标 |
| OFA | 2022 | 统一架构、任务、模态的通用框架 |
| Flamingo | 2022 | 交错图文视觉语言模型,Few-shot 能力 |
| PaLI | 2022 | Pathways 图文模型,大规模多语言 |
| BLIP-2 | 2023 | Q-Former 桥接视觉与 LLM,两阶段预训练 |
| InstructBLIP | 2023 | 指令微调 BLIP-2,提升指令跟随能力 |
| LLaVA | 2023 | 视觉指令微调,线性投影连接视觉与语言 |
| MiniGPT-4 | 2023 | 投影前缀视觉 LLM,对齐视觉特征到语言空间 |
| Kosmos-2 | 2023 | 接地多模态 LLM,支持 Grounding 输出 |
| mPLUG-Owl2 | 2023 | 模态自适应模块,动态融合视觉与语言 |
| CogVLM | 2023 | LLM 层内视觉专家,深度视觉语言融合 |
| PaLI-X | 2023 | 缩放版 Pathways 图文模型,55B 参数 |
| Qwen-VL | 2023 | 通义千问视觉语言模型,多任务多分辨率 |
多模态任务分类¶
| 任务类型 | 对应 Lesson | 输入 | 输出 |
|---|---|---|---|
| 图文检索 | 01 CLIP | 图像 + 文本 | 相似度排名 |
| 图像描述 | 02 BLIP | 图像 | 文本描述 |
| 视觉问答 | 03 LLaVA, 09 PaliGemma | 图像 + 问题 | 文本回答 |
| 目标定位 | 04-05 Grounding | 图像 + 文本 | Box / Mask |
| 开放词汇检测 | 10 OWL-ViT | 图像 + 类别文本 | 检测框 |
| 开放词汇分割 | 11 Grounded-SAM | 图像 + 文本 | 分割掩码 |
| 文档理解 | 12 KV-OCR | 文档图像 | 键值对 |
| 视频 QA | 13 Video VLM | 视频帧 + 问题 | 文本回答 |
| 时序定位 | 14-16 BMN/2D-TAN | 视频 + 文本 | 时间段 |
下一步¶
恭喜!
完成 Multimodal 赛道意味着你已经走完了 DL-Hub 全部 8 条学习赛道的核心内容。以下是一些进阶方向:
| 方向 | 说明 |
|---|---|
| Model Zoo 探索 | 深入 VLM Zoo 的 20 个架构族,对比不同设计范式 |
| 论文阅读 | 阅读 resources/pdfs/llms/ 下的 50+ 篇论文 |
| 贡献新 Lesson | 参考 贡献指南 提交 PR |
| 回顾复习 | 回到 赛道总览 制定复习计划 |