跳转至

Vision Zoo

208 算法族 / 791 Architecture IDs --- 覆盖从经典 CNN 到最新 Vision Transformer 的全部视觉主干网络,外加 8 个下游任务子系统。


CLI 快速上手

# 列出全部 791 个架构 ID
python -m zoo.vision --list

# 模糊搜索
python -m zoo.vision --search efficientnet

# Smoke Test(前向推理验证)
python -m zoo.vision --smoke resnet50

Backbone 架构分类

类别 代表算法 约计数量
经典 CNN AlexNet, VGG-11/13/16/19, GoogLeNet (Inception v1-v4), ResNet-18/34/50/101/152, DenseNet-121/169/201/264 ~60
高效网络 MobileNet v1/v2/v3/v4, EfficientNet-B0~B7, GhostNet, ShuffleNet v1/v2 ~80
注意力 CNN SENet, CBAM, BAM, ECA-Net ~50
现代 CNN ConvNeXt v1/v2, RepVGG, RepLKNet ~40
Vision Transformer ViT-Ti/S/B/L/H, DeiT, BEiT, Swin v1/v2, CSwin ~120
高效 Transformer EfficientViT, TinyViT, EdgeViT, FastViT ~60
MLP 系列 MLP-Mixer, gMLP, ResMLP, FNet ~50
Hybrid CoAtNet, MobileFormer, Uniformer, MaxViT ~60
特殊结构 CapsNet, FractalNet, HRNet, NAS-derived, Mamba-Vision ~50

一行构建任意视觉主干

from zoo.vision import build

model = build("swin_v2_base", num_classes=1000)

经典 CNN

经典卷积神经网络奠定了深度学习视觉领域的基础。

算法族 关键变体 核心创新
AlexNet alexnet 首个大规模 CNN,ReLU + Dropout
VGG vgg11, vgg13, vgg16, vgg19 (+BN) 统一 3x3 卷积堆叠
GoogLeNet inception_v1/v2/v3/v4 Inception Module 多尺度并行
ResNet resnet18/34/50/101/152 Residual Connection 残差连接
DenseNet densenet121/169/201/264 Dense Connection 密集连接

高效网络

面向移动端与边缘设备设计的轻量级架构。

算法族 关键变体 核心创新
MobileNet v1, v2, v3_small/large, v4 Depthwise Separable Conv
EfficientNet b0~b7, v2_s/m/l Compound Scaling
GhostNet ghostnet_050/100/130 Ghost Module 廉价特征生成
ShuffleNet v1_g1/g2/g3/g4/g8, v2_x05/x10/x15/x20 Channel Shuffle

Vision Transformer

基于 Self-Attention 的视觉模型已成为主流。

算法族 关键变体 核心创新
ViT vit_tiny/small/base/large/huge Patch Embedding + Transformer
DeiT deit_tiny/small/base 数据高效训练 + Distillation Token
BEiT beit_base/large Masked Image Modeling 预训练
Swin swin_v2_tiny/small/base/large Shifted Window Attention
CSwin cswin_tiny/small/base/large Cross-Shaped Window Attention

高效 Transformer

在保持 Transformer 精度的同时降低计算成本。

算法族 关键变体 核心创新
EfficientViT efficientvit_b0~b3, m0~m5 Cascaded Group Attention
TinyViT tinyvit_5m/11m/21m 知识蒸馏 + 小模型设计
EdgeViT edgevit_xxs/xs/s Local-Global-Local 交替
FastViT fastvit_t8/t12/s12/sa12/sa24/sa36/ma36 RepMixer + Structural Reparameterization

下游任务子系统

Detection Zoo 2D

~120 个算法族 --- 覆盖 Anchor-based、Anchor-free、Transformer-based 检测器。

python -m zoo.det2d --list
python -m zoo.det2d --search yolo
python -m zoo.det2d --smoke fasterrcnn_r50

代表算法

Faster R-CNN, Cascade R-CNN, RetinaNet, FCOS, ATSS, DETR, Deformable-DETR, DINO, YOLOv3~v8, RT-DETR, Co-DETR


Instance Segmentation Zoo

40 个算法族 --- 实例级像素分割。

python -m zoo.instseg --list
python -m zoo.instseg --search mask
python -m zoo.instseg --smoke maskrcnn_r50

代表算法

Mask R-CNN, Cascade Mask R-CNN, PointRend, SOLOv2, CondInst, Mask2Former


Panoptic Segmentation Zoo

40 个算法族 --- 统一语义分割与实例分割。

python -m zoo.panoptic --list
python -m zoo.panoptic --search panoptic
python -m zoo.panoptic --smoke panoptic_fpn_r50

代表算法

Panoptic FPN, Panoptic-DeepLab, MaskFormer, Mask2Former, kMaX-DeepLab


Lane Detection Zoo

24 个算法族 --- 车道线检测。

python -m zoo.lane --list
python -m zoo.lane --search lane
python -m zoo.lane --smoke scnn

代表算法

SCNN, LaneNet, ERFNet-Lane, PINet, PolyLaneNet, LaneATT, GANet, CLRNet, BezierLaneNet


Co-segmentation Zoo

6 个算法族 --- 协同分割,从多张图像中发现共同目标。

python -m zoo.coseg --list
python -m zoo.coseg --smoke coseg_base

代表算法

CoSegNet, GroupWiseNet, DeepCoseg, CycleSegNet, SPNet, CSMG


Fine-Grained Recognition Zoo

72 个算法族 --- 细粒度图像识别(如鸟类、车型、航空器)。

python -m zoo.finegrained --list
python -m zoo.finegrained --search bilinear
python -m zoo.finegrained --smoke bcnn

代表算法

Bilinear-CNN, NTS-Net, MAMC, DCL, PMG, TransFG, CAL, IELT, SIM-Trans


Action Recognition Zoo

22 个算法族 --- 视频动作识别。

python -m zoo.action --list
python -m zoo.action --search slowfast
python -m zoo.action --smoke slowfast_r50

代表算法

C3D, I3D, SlowFast, TSN, TSM, TimeSformer, VideoSwin, MViTv2, UniFormerV2


MOT Zoo

81 个算法族 --- 多目标跟踪。

python -m zoo.mot --list
python -m zoo.mot --search byte
python -m zoo.mot --smoke bytetrack

代表算法

SORT, DeepSORT, ByteTrack, OC-SORT, StrongSORT, FairMOT, JDE, CenterTrack, TrackFormer, MOTRv2