FedML • Jeefy's Blog

1 min read 187 words Updated Apr 29, 2026 Created May 03, 2026

$\Delta$ Non-IID 是特征而不是缺陷，这是个性化的体现！

需要特别注意的点，这里的目标不再是获取全局的优解，而是获取 PM。
全局模型仅作为知识媒介，将知识在不同的客户端之间传递。

所以 FedML 的设计是：

每位客户端同时维护一个可聚合的“模因模型”（meme model）和一个私有的“个性化模型”（personalized model）
在本地以深度互学习（Deep Mutual Learning, DML）双向蒸馏，从而同时解决联邦学习中的 DH，OH，MH 的问题
$\Delta$ 没有共有数据集！

异构类型	含义
DH	各客户端数据服从不同分布 $(X_k, Y_k) \sim P_k(x,y) \neq P_{\text{joint}}(x,y)$
OH	服务器追求泛化模型（拟合 $P_{\text{joint}}$），客户端追求个性化模型（拟合 $P_k$），且各客户端任务可能不同
MH	客户端因硬件、场景或任务差异，需要定制化架构的模型

所以算法流程是：

MM 每轮从全局模型 fork 而来
和 PM 联合在私有数据集上训练：

$$\begin{aligned} L_{\text{local}} &= \alpha \, L_{C_{\text{local}}} + (1-\alpha) \, D_{KL}\!\left(p_{\text{meme}} \,\|\, p_{\text{local}}\right), \\ L_{\text{meme}} &= \beta \, L_{C_{\text{meme}}} + (1-\beta) \, D_{KL}\!\left(p_{\text{local}} \,\|\, p_{\text{meme}}\right). \end{aligned} $$

两损失独立计算，各自反向传播。

回传 MM，平均聚合（采用简单平均，不按照数据量加权，出于将"客户端"视为平等主体，而非将"样本"视为平等单位的公平性考量，和 FedAvg 出于样本平等的考量不同）

当 $\beta = 1$ 时，退化为 FedAvg，不再双向蒸馏。

为什么仅仅是通过 DML 就可以解决这些问题？
- 从数学层面来讲，FedAvg 是在参数空间的层面上学习的，但 DML 中，模型实际上学习的是输出的概率空间。参数空间对于每一个任务来说，分布是不同的，聚合后可能陷入冲突，难以达到最优解。
  - 为什么直接学习概率空间会更好？
  - 在 logits 阶段，我们实际上除了有硬标签，如果进行高温蒸馏，我们实际上还能学习到隐知识，也就是概率分布，而不是单纯的结果。这可以帮助模型更好的迁移知识。于是就解决了 DH 的问题。
- 而不同的模型，其学习的概率空间应该是一致（或者是非常相似）的，与模型框架无关，所以可以顺利的解决 MH 的问题。
- 根据神秘言论，双向性的优化动力学下的共识约束与平坦极小值，共识正则项迫使两模型在概率输出上达成一致，但各自保留独立的参数化路径。Zhang et al. (2018) 证明，这种互学习机制倾向于寻找更平坦（flat）、更稳健（robust）的损失盆地——因为共识约束相当于在损失 landscape 中增加了“宽度”正则化，使模型不易陷入尖锐的局部极小值（Sec. 5.2 引用："FML can find a more steady (robust) minimum"）。
- 根据神秘言论：这种双向性创造了张力（tension），使两模型不会坍缩为同一解。MM 和 PM 分别锚定在全局公式和私有数据上，向对方收缩，这种双向拉力使得服务器与客户端的不同目标（generalized vs. personalized）可以在同一框架内并行优化，而不像 FedAvg 那样被迫二选一。
Catfish Effect：在 FML 中，能力强的模型（catfish）能带动能力弱的模型（sardines）提升，而劣质模型对整体影响甚微。
- 全局平均的风险稀释：
  - 差的 PM 不上传，而一定偏移的 MM 被稀释为 $\frac 1 K$
  - 训练参数中的 Ground Truth 损失锚定了模型不会偏移。
  - 根据神秘言论。非对称信息增益：低熵 vs. 高熵。