1 min read 187 words Updated Apr 29, 2026 Created May 03, 2026

Federated Mutual Learning.pdf

  • $\Delta$ Non-IID 是特征而不是缺陷,这是个性化的体现!

需要特别注意的点,这里的目标不再是获取全局的优解,而是获取 PM。
全局模型仅作为知识媒介,将知识在不同的客户端之间传递。

所以 FedML 的设计是:

  • 每位客户端同时维护一个可聚合的“模因模型”(meme model)和一个私有的“个性化模型”(personalized model)
  • 在本地以深度互学习(Deep Mutual Learning, DML)双向蒸馏,从而同时解决联邦学习中的 DH,OH,MH 的问题
  • $\Delta$ 没有共有数据集!
异构类型含义
DH各客户端数据服从不同分布 $(X_k, Y_k) \sim P_k(x,y) \neq P_{\text{joint}}(x,y)$
OH服务器追求泛化模型(拟合 $P_{\text{joint}}$),客户端追求个性化模型(拟合 $P_k$),且各客户端任务可能不同
MH客户端因硬件、场景或任务差异,需要定制化架构的模型

所以算法流程是:

  1. MM 每轮从全局模型 fork 而来
  2. 和 PM 联合在私有数据集上训练:

$$\begin{aligned} L_{\text{local}} &= \alpha \, L_{C_{\text{local}}} + (1-\alpha) \, D_{KL}\!\left(p_{\text{meme}} \,\|\, p_{\text{local}}\right), \\ L_{\text{meme}} &= \beta \, L_{C_{\text{meme}}} + (1-\beta) \, D_{KL}\!\left(p_{\text{local}} \,\|\, p_{\text{meme}}\right). \end{aligned} $$

两损失独立计算,各自反向传播。

  1. 回传 MM,平均聚合(采用简单平均,不按照数据量加权,出于 将"客户端"视为平等主体,而非将"样本"视为平等单位 的公平性考量,和 FedAvg 出于样本平等的考量不同)

$\beta = 1$ 时,退化为 FedAvg,不再双向蒸馏。


  • 为什么仅仅是通过 DML 就可以解决这些问题?
    • 从数学层面来讲,FedAvg 是在参数空间的层面上学习的,但 DML 中,模型实际上学习的是输出的概率空间。参数空间对于每一个任务来说,分布是不同的,聚合后可能陷入冲突,难以达到最优解。
      • 为什么直接学习概率空间会更好?
      • 在 logits 阶段,我们实际上除了有硬标签,如果进行高温蒸馏,我们实际上还能学习到隐知识,也就是概率分布,而不是单纯的结果。这可以帮助模型更好的迁移知识。于是就解决了 DH 的问题。
    • 而不同的模型,其学习的概率空间应该是一致(或者是非常相似)的,与模型框架无关,所以可以顺利的解决 MH 的问题。
    • 根据神秘言论,双向性的优化动力学下的共识约束与平坦极小值,共识正则项迫使两模型在概率输出上达成一致,但各自保留独立的参数化路径。Zhang et al. (2018) 证明,这种互学习机制倾向于寻找更平坦(flat)、更稳健(robust)的损失盆地——因为共识约束相当于在损失 landscape 中增加了“宽度”正则化,使模型不易陷入尖锐的局部极小值(Sec. 5.2 引用:"FML can find a more steady (robust) minimum")。
    • 根据神秘言论:这种双向性创造了张力(tension),使两模型不会坍缩为同一解。MM 和 PM 分别锚定在全局公式和私有数据上,向对方收缩,这种双向拉力使得服务器与客户端的不同目标(generalized vs. personalized)可以在同一框架内并行优化,而不像 FedAvg 那样被迫二选一。
  • Catfish Effect:在 FML 中,能力强的模型(catfish)能带动能力弱的模型(sardines)提升,而劣质模型对整体影响甚微。
    • 全局平均的风险稀释:
      • 差的 PM 不上传,而一定偏移的 MM 被稀释为 $\frac 1 K$
      • 训练参数中的 Ground Truth 损失锚定了模型不会偏移。
      • 根据神秘言论。非对称信息增益:低熵 vs. 高熵。