1 min read 65 words Updated May 03, 2026 Created May 03, 2026

一层输出特征映射来源于该层的所有核与全部输入特征映射。

$${\mathcal X} \in {\mathcal R}^{M \times N \times D}, {\mathcal Y} \in {\mathcal R}^{M' \times N' \times P}, {\mathcal W} \in {\mathcal R}^{U \times V \times P \times D} $$

$$\mathcal {Y}^p = f(\mathcal {Z}^p) = f(\sum \mathcal {W}^{p, d} \otimes \mathcal {X}^d + b^p) $$

批归一化在每次训练的时候使用的是基于每个 mini-batch 的方差和期望。如果按照学习分布的角度来看,只有每个 mini-batch 的内容足够随机且大小足够大,该方差和期望才趋于稳定,分布在训练时才不会发生突变。
但是问题就在于,每个 batch 的分布一定是有区别的,可能使得其后层参数变得无效化,这该如何解决?
以及我是否需要在整体训练完成后进行调整?这又会涉及到是否会使得该模型泛化能力变弱?在数据分布不够均匀的时候,鲁棒性是否不足?
我可以理解丢弃法的多个神经网络叠加消除误差的哲学道理。不过,该叠加的舍弃之间的影响我为何可以忽略?那么又为何不使用预先生成的多个确定了 Drop out 后的网络,分别训练然后合并?