卷积神经网络 • Jeefy's Blog

1 min read 65 words Updated May 03, 2026 Created May 03, 2026

一层输出特征映射来源于该层的所有核与全部输入特征映射。

$${\mathcal X} \in {\mathcal R}^{M \times N \times D}, {\mathcal Y} \in {\mathcal R}^{M' \times N' \times P}, {\mathcal W} \in {\mathcal R}^{U \times V \times P \times D} $$

$$\mathcal {Y}^p = f(\mathcal {Z}^p) = f(\sum \mathcal {W}^{p, d} \otimes \mathcal {X}^d + b^p) $$

批归一化在每次训练的时候使用的是基于每个 mini-batch 的方差和期望。如果按照学习分布的角度来看，只有每个 mini-batch 的内容足够随机且大小足够大，该方差和期望才趋于稳定，分布在训练时才不会发生突变。
但是问题就在于，每个 batch 的分布一定是有区别的，可能使得其后层参数变得无效化，这该如何解决？
以及我是否需要在整体训练完成后进行调整？这又会涉及到是否会使得该模型泛化能力变弱？在数据分布不够均匀的时候，鲁棒性是否不足？
我可以理解丢弃法的多个神经网络叠加消除误差的哲学道理。不过，该叠加的舍弃之间的影响我为何可以忽略？那么又为何不使用预先生成的多个确定了 Drop out 后的网络，分别训练然后合并？