| 年份 | 网络 | 代表创新点 |
|---|---|---|
| 2012 | AlexNet | ReLU激活大幅加速收敛;Dropout防过拟合;GPU训练;首次在ImageNet大幅超越传统方法 |
| 2014 | VGGNet | 使用多个 3×3 卷积堆叠代替大卷积核;网络更深(16/19层);结构简单易迁移 |
| 2014 | GoogLeNet (Inception v1) | Inception模块,多尺度卷积+池化并行;用1×1卷积降维减少计算量 |
2. 加深加宽型
尝试让网络更深或更宽,同时解决梯度消失/计算量过大的问题。
| 年份 | 网络 | 代表创新点 |
|---|---|---|
| 2015 | ResNet | 残差结构(skip connection)让网络可以“学残差”而非直接映射,支持上百甚至上千层 |
| 2016 | ResNeXt | 基于ResNet,引入“分组卷积”思想(Cardinality:多分支聚合)提升精度效率比 |
| 2017 | DenseNet | 密集连接(Dense Block)使每层接收之前所有层的特征,特征复用率高,梯度传递顺畅 |
3. 模块化 / 多分支型
关注特征尺度、多路径信息融合,适合检测、分割任务。
| 年份 | 网络 | 代表创新点 |
|---|---|---|
| 2016 | Inception v3/v4 | 进一步优化Inception结构,引入factorized卷积(分解卷积核)降低计算量 |
| 2016 | Xception | 深度可分离卷积(Depthwise + Pointwise),极致分离空间和通道信息 |
| 2018 | HRNet | 高分辨率分支全程保留,跨分支多尺度融合,特别适合姿态估计、分割等需要空间精度的任务 |
4. 轻量化Backbone
面向移动端/嵌入式设备,强调参数量和运算量(FLOPs)的小型化。
| 年份 | 网络 | 代表创新点 |
|---|---|---|
| 2017 | MobileNet v1 | 深度可分离卷积显著减少参数量 |
| 2018 | MobileNet v2 | 倒残差结构 + 线性瓶颈;更好的移动端性能 |
| 2020 | MobileNet v3 | 结合NAS搜索,SE注意力模块 |
| 2018 | ShuffleNet v1/v2 | 分组卷积 + 通道shuffle提升信息流动效率 |
| 2019 | EfficientNet | 复合缩放(深度、宽度、分辨率)同时优化,基于NAS搜索结构 |
5. Transformer化 / ConvNext化
近年来卷积与Transformer融合,或对CNN进行现代化改造。
| 年份 | 网络 | 代表创新点 |
|---|---|---|
| 2020 | ViT (Vision Transformer) | 将图像切块(patch)直接输入Transformer;纯Attention架构 |
| 2021 | Swin Transformer | 窗口化多头注意力,层次化结构,兼顾局部与全局信息 |
| 2022 | ConvNeXt | 借鉴Transformer训练细节改造ResNet,卷积网络也能匹敌Swin精度 |
| 2023 | InternImage | 基于可变形卷积(DCNv3)的大规模视觉Backbone |