视觉赛道¶
赛道概览
14 个 Lesson · 预计 2-3 周 · 从 MNIST 入门到目标检测、语义分割、Vision Transformer
Vision 赛道是 DL-Hub 内容最丰富的方向之一,覆盖图像分类、目标检测、语义分割、实例分割、关键点回归、图像去噪和多目标跟踪。配套 **736 种 Backbone 架构**可供切换实验。
学习路径¶
flowchart TD
L01["01 LeNet-5\n图像分类"] --> L02["02 MLP\n图像分类"]
L02 --> L03["03 AlexNet\n图像分类"]
L03 --> L04["04 FCOS\n目标检测"]
L03 --> L05["05 ViT\n图像分类"]
L05 --> L06["06 Swin Transformer\n图像分类"]
L04 --> L07["07 关键点回归"]
L06 --> L08["08 UNet\n语义分割"]
L03 --> L09["09 多 Backbone 对比"]
L08 --> L10["10 图像去噪"]
L04 --> L11["11 YOLACT\n实例分割"]
L04 --> L12["12 YOLO 风格检测"]
L04 --> L13["13 行人检测 FCOS"]
L12 --> L14["14 视频多目标跟踪\nMOT"]
style L01 fill:#2563eb,color:#fff
style L02 fill:#2563eb,color:#fff
style L03 fill:#2563eb,color:#fff
style L04 fill:#dc2626,color:#fff
style L05 fill:#7c3aed,color:#fff
style L06 fill:#7c3aed,color:#fff
style L07 fill:#059669,color:#fff
style L08 fill:#059669,color:#fff
style L09 fill:#d97706,color:#fff
style L10 fill:#059669,color:#fff
style L11 fill:#dc2626,color:#fff
style L12 fill:#dc2626,color:#fff
style L13 fill:#dc2626,color:#fff
style L14 fill:#db2777,color:#fff 颜色说明
分类 ·
检测 ·
Transformer ·
分割/回归 ·
Backbone · :pink_square: 视频
先修知识¶
| 领域 | 要求 |
|---|---|
| DL-Hub | 完成 Foundations 赛道 |
| 数学 | 卷积运算直觉、池化操作 |
| 框架 | 理解 torch.nn.Module、DataLoader |
课程列表¶
| 序号 | 项目 | 代码文档 | 核心概念 |
|---|---|---|---|
| 01 | LeNet-5 图像分类 | mnist_lenet | 卷积层, 池化, 全连接 |
| 02 | MLP 图像分类 | mnist_mlp | 多层感知机, Flatten |
| 03 | AlexNet 图像分类 | mnist_alexnet | 深层卷积网络, Dropout |
| 04 | FCOS 目标检测 | synthetic_detection_fcos | Anchor-free, FPN, 回归头 |
| 05 | ViT 图像分类 | vit_toy_classification | Patch Embedding, Self-Attention |
| 06 | Swin Transformer 图像分类 | swin_toy_classification | Window Attention, Shifted Window |
| 07 | 关键点回归 | toy_keypoint_regression | 坐标回归, Heatmap |
| 08 | UNet 语义分割 | synthetic_segmentation_unet | Encoder-Decoder, Skip Connection |
| 09 | 多 Backbone 对比 | cnn_backbones_toy_classification | 统一接口, 特征提取 |
| 10 | 图像去噪(多模型) | synthetic_denoising | 合成噪声建模, 去噪回归 |
| 11 | YOLACT 实例分割 | synthetic_instance_segmentation_yolact | Prototype + Coefficients |
| 12 | YOLO 风格目标检测 | synthetic_detection_yolo | Grid/Objectness + BBox |
| 13 | 行人检测(FCOS) | synthetic_pedestrian_detection_fcos | Anchor-free 检测头 |
| 14 | 视频多目标跟踪(MOT) | video_mot_basics | 多目标轨迹预测, Presence + IoU |
运行示例¶
Vision Backbone Zoo¶
791 架构可供切换
Vision Zoo 包含 208 个算法族 / 791 个架构 ID,所有 backbone 均为纯 PyTorch 本地实现,支持通过 --arch 参数一行切换。
# 列出所有可用架构
python scripts/vision_zoo.py --list
# 搜索特定架构
python scripts/vision_zoo.py --search convnext
# 冒烟测试
python scripts/vision_zoo.py --smoke resnet50
Backbone 分类详情(点击展开)
| 类别 | 代表架构 | 特点 |
|---|---|---|
| 经典 CNN | AlexNet, VGG, GoogLeNet, ResNet, DenseNet, SqueezeNet | 计算机视觉基石,结构清晰 |
| 高效网络 | MobileNet v1-v4, EfficientNet, GhostNet v1/v2, ShuffleNet, MNASNet, FBNet, MicroNet | 面向移动端部署 |
| 注意力 CNN | SENet, CBAM, BAM, ECA-Net, SK-Net, CoordAtt, SimAM, Triplet Attention | 通道/空间注意力增强 |
| 现代 CNN | ConvNeXt v1/v2, RepVGG, RepLKNet, InceptionNeXt, HorNet, FocalNet, SLaK | 吸收 Transformer 思想的现代卷积 |
| Vision Transformer | ViT, DeiT, DeiT3, BEiT, EVA, CaiT, CrossViT, Swin v2, CSwin, MAE-ViT | 纯 Transformer 视觉模型 |
| 高效 Transformer | EfficientViT, TinyViT, EdgeViT, LightViT, FastViT, FasterViT, SwiftFormer | 轻量化视觉 Transformer |
| MLP 系列 | MLP-Mixer, gMLP, ResMLP, FNet, CycleMLP, AS-MLP, WaveMLP, MorphMLP | 全连接替代注意力 |
| Hybrid | CoAtNet, MobileFormer, ConvFormer, Uniformer, CMT, MaxViT, MobileViT v1-v3 | CNN + Transformer 混合 |
| 特殊结构 | CapsNet, ScatterNet, FractalNet, HighwayNet, HRNet, NAS 系列 | 非主流但有启发性的架构 |
下一步¶
完成 Vision 赛道后,你可以继续:
| 推荐方向 | 说明 |
|---|---|
| 将视觉能力扩展到 3D 点云世界 | |
| 学习 VAE 和 GAN 图像生成 | |
| 结合视觉与语言的跨模态学习 |