年份 |
网络 |
代表创新点 |
2012 |
AlexNet |
ReLU激活大幅加速收敛;Dropout防过拟合;GPU训练;首次在ImageNet大幅超越传统方法 |
2014 |
VGGNet |
使用多个 3×3 卷积堆叠代替大卷积核;网络更深(16/19层);结构简单易迁移 |
2014 |
GoogLeNet (Inception v1) |
Inception模块,多尺度卷积+池化并行;用1×1卷积降维减少计算量 |
2. 加深加宽型
尝试让网络更深或更宽,同时解决梯度消失/计算量过大的问题。
年份 |
网络 |
代表创新点 |
2015 |
ResNet |
残差结构(skip connection)让网络可以“学残差”而非直接映射,支持上百甚至上千层 |
2016 |
ResNeXt |
基于ResNet,引入“分组卷积”思想(Cardinality:多分支聚合)提升精度效率比 |
2017 |
DenseNet |
密集连接(Dense Block)使每层接收之前所有层的特征,特征复用率高,梯度传递顺畅 |
3. 模块化 / 多分支型
关注特征尺度、多路径信息融合,适合检测、分割任务。
年份 |
网络 |
代表创新点 |
2016 |
Inception v3/v4 |
进一步优化Inception结构,引入factorized卷积(分解卷积核)降低计算量 |
2016 |
Xception |
深度可分离卷积(Depthwise + Pointwise),极致分离空间和通道信息 |
2018 |
HRNet |
高分辨率分支全程保留,跨分支多尺度融合,特别适合姿态估计、分割等需要空间精度的任务 |
4. 轻量化Backbone
面向移动端/嵌入式设备,强调参数量和运算量(FLOPs)的小型化。
年份 |
网络 |
代表创新点 |
2017 |
MobileNet v1 |
深度可分离卷积显著减少参数量 |
2018 |
MobileNet v2 |
倒残差结构 + 线性瓶颈;更好的移动端性能 |
2020 |
MobileNet v3 |
结合NAS搜索,SE注意力模块 |
2018 |
ShuffleNet v1/v2 |
分组卷积 + 通道shuffle提升信息流动效率 |
2019 |
EfficientNet |
复合缩放(深度、宽度、分辨率)同时优化,基于NAS搜索结构 |
5. Transformer化 / ConvNext化
近年来卷积与Transformer融合,或对CNN进行现代化改造。
年份 |
网络 |
代表创新点 |
2020 |
ViT (Vision Transformer) |
将图像切块(patch)直接输入Transformer;纯Attention架构 |
2021 |
Swin Transformer |
窗口化多头注意力,层次化结构,兼顾局部与全局信息 |
2022 |
ConvNeXt |
借鉴Transformer训练细节改造ResNet,卷积网络也能匹敌Swin精度 |
2023 |
InternImage |
基于可变形卷积(DCNv3)的大规模视觉Backbone |