ResNet：深度残差网络详解

1. 核心问题：深度网络的训练难题

在 ResNet 出现之前，仅仅通过增加网络深度（层数）并不能无限提升性能。实验表明，当网络达到一定深度后，性能反而会下降。

梯度消失/爆炸：深层网络反向传播中梯度逐层累积或衰减，导致浅层无法有效更新。虽然 BN (Batch Normalization) 缓解了这个问题，但并非全部解决方案。
网络退化 (Degradation)：随着深度增加，准确率达到饱和然后迅速退化。这并不是过拟合（因为训练误差也变高了），而是优化变得更加困难。

                        💡 关键观察： 理论上，更深的网络应该至少不会比浅层网络差（可以将额外层学习为恒等映射）。但实际上，普通网络很难学习到这种恒等映射。
                    

图1: 深度网络性能曲线对比

ResNet 的核心洞见是：与其让网络直接学习潜在的映射 H(x)，不如让它学习残差映射 F(x) = H(x) - x。

通过引入恒等捷径连接 (Shortcut Connection)，原始输入 x 直接传到后面与残差块的输出相加。这样：

                        ✨ 核心创新： Skip Connection 不引入额外参数，也几乎不增加计算复杂度，但却极大提升了网络的可训练性。这是“少即是多”的经典案例。
                    

图2: 残差块 (Residual Block) 结构

ResNet 具有清晰的模块化结构。通常包括 4 个主要阶段 (Stage)，每个阶段的特征图大小减半，通道数翻倍。

模型	层数	块类型	Stage1	Stage2	Stage3	Stage4	参数量
ResNet-18	18	Basic	2	2	2	2	11.7M
ResNet-34	34	Basic	3	4	6	3	21.8M
ResNet-50	50	Bottleneck	3	4	6	3	25.6M
ResNet-101	101	Bottleneck	3	4	23	3	44.5M
ResNet-152	152	Bottleneck	3	8	36	3	60.2M

ResNet 的成功启发了大量变体和扩展，进一步推动了深度学习的发展。

ResNeXt (2017)：引入“基数 (Cardinality)”概念，将单个宽的卷积替换为多个组卷积的聚合。在相同参数量下性能优于 ResNet。公式：y = x + Σ T_i(x)，其中 T_i 是相同拓扑的变换。
Wide ResNet (2016)：通过增加每层的通道数（宽度）而非深度来提升性能。实验显示，在特定情况下，增加宽度比增加深度更有效。
ResNet-D (2019)：对 ResNet 的下采样策略进行优化，避免信息丢失。在 ImageNet 上提升约 0.5% Top-1 准确率。
SE-ResNet：集成 Squeeze-and-Excitation (SE) 模块，通过显式建模通道间依赖性来提升特征表达。
Pre-activation ResNet：调整 BN 和 ReLU 的位置（放在卷积之前），使梯度流动更顺畅，训练更稳定。

ResNet 的出现是所谓的 "All you need is skip connection" 的开始。它带来的改变是革命性的：

图5: ResNet vs PlainNet 训练误差对比