视觉赛道¶

赛道概览

14 个 Lesson · 预计 2-3 周 · 从 MNIST 入门到目标检测、语义分割、Vision Transformer

Vision 赛道是 DL-Hub 内容最丰富的方向之一，覆盖图像分类、目标检测、语义分割、实例分割、关键点回归、图像去噪和多目标跟踪。配套 **736 种 Backbone 架构**可供切换实验。

学习路径¶

flowchart TD
    L01["01 LeNet-5\n图像分类"] --> L02["02 MLP\n图像分类"]
    L02 --> L03["03 AlexNet\n图像分类"]
    L03 --> L04["04 FCOS\n目标检测"]
    L03 --> L05["05 ViT\n图像分类"]
    L05 --> L06["06 Swin Transformer\n图像分类"]
    L04 --> L07["07 关键点回归"]
    L06 --> L08["08 UNet\n语义分割"]
    L03 --> L09["09 多 Backbone 对比"]
    L08 --> L10["10 图像去噪"]
    L04 --> L11["11 YOLACT\n实例分割"]
    L04 --> L12["12 YOLO 风格检测"]
    L04 --> L13["13 行人检测 FCOS"]
    L12 --> L14["14 视频多目标跟踪\nMOT"]

    style L01 fill:#2563eb,color:#fff
    style L02 fill:#2563eb,color:#fff
    style L03 fill:#2563eb,color:#fff
    style L04 fill:#dc2626,color:#fff
    style L05 fill:#7c3aed,color:#fff
    style L06 fill:#7c3aed,color:#fff
    style L07 fill:#059669,color:#fff
    style L08 fill:#059669,color:#fff
    style L09 fill:#d97706,color:#fff
    style L10 fill:#059669,color:#fff
    style L11 fill:#dc2626,color:#fff
    style L12 fill:#dc2626,color:#fff
    style L13 fill:#dc2626,color:#fff
    style L14 fill:#db2777,color:#fff

颜色说明

分类 · 检测 · Transformer · 分割/回归 · Backbone · :pink_square: 视频

先修知识¶

领域	要求
DL-Hub	完成 Foundations 赛道
数学	卷积运算直觉、池化操作
框架	理解 `torch.nn.Module`、`DataLoader`

课程列表¶

序号	项目	代码文档	核心概念
01	LeNet-5 图像分类	`mnist_lenet`	卷积层, 池化, 全连接
02	MLP 图像分类	`mnist_mlp`	多层感知机, Flatten
03	AlexNet 图像分类	`mnist_alexnet`	深层卷积网络, Dropout
04	FCOS 目标检测	`synthetic_detection_fcos`	Anchor-free, FPN, 回归头
05	ViT 图像分类	`vit_toy_classification`	Patch Embedding, Self-Attention
06	Swin Transformer 图像分类	`swin_toy_classification`	Window Attention, Shifted Window
07	关键点回归	`toy_keypoint_regression`	坐标回归, Heatmap
08	UNet 语义分割	`synthetic_segmentation_unet`	Encoder-Decoder, Skip Connection
09	多 Backbone 对比	`cnn_backbones_toy_classification`	统一接口, 特征提取
10	图像去噪（多模型）	`synthetic_denoising`	合成噪声建模, 去噪回归
11	YOLACT 实例分割	`synthetic_instance_segmentation_yolact`	Prototype + Coefficients
12	YOLO 风格目标检测	`synthetic_detection_yolo`	Grid/Objectness + BBox
13	行人检测（FCOS）	`synthetic_pedestrian_detection_fcos`	Anchor-free 检测头
14	视频多目标跟踪（MOT）	`video_mot_basics`	多目标轨迹预测, Presence + IoU

运行示例¶

Lesson 01 — LeNet-5Lesson 05 — ViTLesson 09 — Backbone ZooLesson 14 — MOT

python -m tracks.vision.lesson_01_mnist_lenet.train \
  --dataset fake --epochs 1 \
  --max-train-batches 2 --max-eval-batches 2

python -m tracks.vision.lesson_05_vit_toy_classification.train \
  --dataset fake --epochs 1 \
  --max-train-batches 2 --max-eval-batches 2

python -m tracks.vision.lesson_09_cnn_backbones_toy_classification.train \
  --arch resnet18 --dataset fake --epochs 1 \
  --max-train-batches 2 --max-eval-batches 2

python -m tracks.vision.lesson_14_video_mot_basics.train \
  --dataset fake --epochs 1 \
  --max-train-batches 2 --max-eval-batches 2

Vision Backbone Zoo¶

791 架构可供切换

Vision Zoo 包含 208 个算法族 / 791 个架构 ID，所有 backbone 均为纯 PyTorch 本地实现，支持通过 --arch 参数一行切换。

# 列出所有可用架构
python scripts/vision_zoo.py --list

# 搜索特定架构
python scripts/vision_zoo.py --search convnext

# 冒烟测试
python scripts/vision_zoo.py --smoke resnet50

Backbone 分类详情（点击展开）

类别	代表架构	特点
经典 CNN	AlexNet, VGG, GoogLeNet, ResNet, DenseNet, SqueezeNet	计算机视觉基石，结构清晰
高效网络	MobileNet v1-v4, EfficientNet, GhostNet v1/v2, ShuffleNet, MNASNet, FBNet, MicroNet	面向移动端部署
注意力 CNN	SENet, CBAM, BAM, ECA-Net, SK-Net, CoordAtt, SimAM, Triplet Attention	通道/空间注意力增强
现代 CNN	ConvNeXt v1/v2, RepVGG, RepLKNet, InceptionNeXt, HorNet, FocalNet, SLaK	吸收 Transformer 思想的现代卷积
Vision Transformer	ViT, DeiT, DeiT3, BEiT, EVA, CaiT, CrossViT, Swin v2, CSwin, MAE-ViT	纯 Transformer 视觉模型
高效 Transformer	EfficientViT, TinyViT, EdgeViT, LightViT, FastViT, FasterViT, SwiftFormer	轻量化视觉 Transformer
MLP 系列	MLP-Mixer, gMLP, ResMLP, FNet, CycleMLP, AS-MLP, WaveMLP, MorphMLP	全连接替代注意力
Hybrid	CoAtNet, MobileFormer, ConvFormer, Uniformer, CMT, MaxViT, MobileViT v1-v3	CNN + Transformer 混合
特殊结构	CapsNet, ScatterNet, FractalNet, HighwayNet, HRNet, NAS 系列	非主流但有启发性的架构

下一步¶

完成 Vision 赛道后，你可以继续：

推荐方向	说明
Point Cloud 点云赛道	将视觉能力扩展到 3D 点云世界
Generative 生成模型赛道	学习 VAE 和 GAN 图像生成
Multimodal 多模态赛道	结合视觉与语言的跨模态学习