跳转至

VLM Zoo

20 算法族 --- 覆盖 2021-2023 年视觉-语言多模态模型的核心演进路线,从对比学习到指令微调。


CLI 快速上手

# 列出全部 VLM 架构 ID
python -m zoo.vlm --list

# 模糊搜索
python -m zoo.vlm --search blip

# Smoke Test(前向推理验证)
python -m zoo.vlm --smoke clip_base

全部 20 算法族

# 算法族 年份 核心创新
1 CLIP 2021 对比学习对齐 Image-Text,零样本迁移能力开创性突破
2 ALIGN 2021 大规模噪声 Image-Text 对训练,Dual Encoder 简洁架构
3 ViLT 2021 去除 Region Feature / CNN,纯 Transformer 处理视觉-语言
4 SimVLM 2021 简化 VLM 预训练,前缀语言模型 (PrefixLM) 统一目标
5 ALBEF 2021 Align Before Fuse --- 先对齐再融合,动量蒸馏去噪
6 LiT 2022 Locked-image Tuning --- 冻结预训练视觉编码器,仅训练文本侧
7 BLIP 2022 Bootstrapping Language-Image Pre-training + CapFilt 噪声过滤
8 CoCa 2022 Contrastive Captioners --- 对比学习 + 生成式 Caption 联合训练
9 OFA 2022 统一 Seq2Seq 框架,多模态多任务一个模型
10 Flamingo 2022 少样本多模态学习,Perceiver Resampler + Gated Cross-Attention
11 PaLI 2022 Pathways Language and Image,超大规模多语言多模态模型
12 BLIP-2 2023 Q-Former 桥接冻结视觉编码器与冻结 LLM,训练效率飞跃
13 InstructBLIP 2023 指令微调 BLIP-2,多任务指令跟随能力
14 LLaVA 2023 Visual Instruction Tuning --- MLP 投影 + LLM 指令微调
15 MiniGPT-4 2023 一层线性投影对齐视觉编码器与 Vicuna LLM
16 Kosmos-2 2023 Grounded Multimodal LLM --- 文本生成 + 目标定位联合
17 mPLUG-Owl2 2023 Modality-Adaptive Module 实现多模态协作
18 CogVLM 2023 Visual Expert Module 注入 LLM 每一层,深度视觉融合
19 PaLI-X 2023 Scaling up PaLI 至 55B,多任务多语言 SOTA
20 Qwen-VL 2023 高分辨率视觉编码 + 多粒度文本理解,中英双语

演进脉络

graph LR
    A["CLIP / ALIGN<br/>对比学习"] --> B["ALBEF / BLIP<br/>对齐+融合"]
    B --> C["BLIP-2<br/>Q-Former 桥接 LLM"]
    C --> D["InstructBLIP / LLaVA<br/>指令微调"]
    A --> E["ViLT / SimVLM<br/>端到端 Transformer"]
    E --> F["CoCa / OFA<br/>统一框架"]
    F --> D
    C --> G["Flamingo / PaLI<br/>超大规模少样本"]
    G --> H["CogVLM / Qwen-VL<br/>深度融合"]

架构分类

对比学习 (Contrastive Learning)

以 Image-Text 对比损失为核心的双塔模型。

算法族 视觉编码器 文本编码器 特点
CLIP ViT / ResNet Transformer 零样本迁移基线
ALIGN EfficientNet BERT 18 亿噪声数据训练
LiT ViT (冻结) Transformer (可训练) 仅微调文本侧

对齐 + 融合 (Align & Fuse)

先对齐表示空间,再通过 Cross-Attention 深度融合。

算法族 核心机制 特点
ALBEF Momentum Distillation 动量蒸馏 + ITC/ITM/MLM
BLIP CapFilt 噪声 Caption 自动过滤
CoCa Contrastive + Captioning 双目标联合优化

桥接 LLM (Bridge to LLM)

将预训练视觉编码器与冻结 LLM 高效连接。

算法族 桥接方式 LLM
BLIP-2 Q-Former OPT / FlanT5
Flamingo Perceiver Resampler Chinchilla
LLaVA MLP Projection LLaMA / Vicuna
MiniGPT-4 Linear Projection Vicuna

指令微调 (Instruction Tuning)

通过多任务指令数据增强模型的跟随能力。

算法族 基座 关键数据
InstructBLIP BLIP-2 多任务指令数据集
LLaVA LLaMA GPT-4 生成的视觉指令数据
Qwen-VL Qwen 多粒度中英指令数据

用法示例

from zoo.vlm import build

model = build("clip_base")
# model.encode_image(images)  -> image_features  [B, D]
# model.encode_text(texts)    -> text_features   [B, D]