- $\Delta$
Non-IID是特征而不是缺陷,这是个性化的体现!
需要特别注意的点,这里的目标不再是获取全局的优解,而是获取 PM。
全局模型仅作为知识媒介,将知识在不同的客户端之间传递。
所以 FedML 的设计是:
- 每位客户端同时维护一个可聚合的“模因模型”(meme model)和一个私有的“个性化模型”(personalized model)
- 在本地以深度互学习(Deep Mutual Learning, DML)双向蒸馏,从而同时解决联邦学习中的 DH,OH,MH 的问题
- $\Delta$ 没有共有数据集!
| 异构类型 | 含义 |
|---|---|
| DH | 各客户端数据服从不同分布 $(X_k, Y_k) \sim P_k(x,y) \neq P_{\text{joint}}(x,y)$ |
| OH | 服务器追求泛化模型(拟合 $P_{\text{joint}}$),客户端追求个性化模型(拟合 $P_k$),且各客户端任务可能不同 |
| MH | 客户端因硬件、场景或任务差异,需要定制化架构的模型 |
所以算法流程是:
- MM 每轮从全局模型 fork 而来
- 和 PM 联合在私有数据集上训练:
$$\begin{aligned} L_{\text{local}} &= \alpha \, L_{C_{\text{local}}} + (1-\alpha) \, D_{KL}\!\left(p_{\text{meme}} \,\|\, p_{\text{local}}\right), \\ L_{\text{meme}} &= \beta \, L_{C_{\text{meme}}} + (1-\beta) \, D_{KL}\!\left(p_{\text{local}} \,\|\, p_{\text{meme}}\right). \end{aligned} $$
两损失独立计算,各自反向传播。
- 回传 MM,平均聚合(采用简单平均,不按照数据量加权,出于 将"客户端"视为平等主体,而非将"样本"视为平等单位 的公平性考量,和 FedAvg 出于样本平等的考量不同)
当 $\beta = 1$ 时,退化为 FedAvg,不再双向蒸馏。
- 为什么仅仅是通过 DML 就可以解决这些问题?
- 从数学层面来讲,FedAvg 是在参数空间的层面上学习的,但 DML 中,模型实际上学习的是输出的概率空间。参数空间对于每一个任务来说,分布是不同的,聚合后可能陷入冲突,难以达到最优解。
- 为什么直接学习概率空间会更好?
- 在 logits 阶段,我们实际上除了有硬标签,如果进行高温蒸馏,我们实际上还能学习到隐知识,也就是概率分布,而不是单纯的结果。这可以帮助模型更好的迁移知识。于是就解决了 DH 的问题。
- 而不同的模型,其学习的概率空间应该是一致(或者是非常相似)的,与模型框架无关,所以可以顺利的解决 MH 的问题。
- 根据神秘言论,双向性的优化动力学下的共识约束与平坦极小值,共识正则项迫使两模型在概率输出上达成一致,但各自保留独立的参数化路径。Zhang et al. (2018) 证明,这种互学习机制倾向于寻找更平坦(flat)、更稳健(robust)的损失盆地——因为共识约束相当于在损失 landscape 中增加了“宽度”正则化,使模型不易陷入尖锐的局部极小值(Sec. 5.2 引用:"FML can find a more steady (robust) minimum")。
- 根据神秘言论:这种双向性创造了张力(tension),使两模型不会坍缩为同一解。MM 和 PM 分别锚定在全局公式和私有数据上,向对方收缩,这种双向拉力使得服务器与客户端的不同目标(generalized vs. personalized)可以在同一框架内并行优化,而不像 FedAvg 那样被迫二选一。
- 从数学层面来讲,FedAvg 是在参数空间的层面上学习的,但 DML 中,模型实际上学习的是输出的概率空间。参数空间对于每一个任务来说,分布是不同的,聚合后可能陷入冲突,难以达到最优解。
- Catfish Effect:在 FML 中,能力强的模型(catfish)能带动能力弱的模型(sardines)提升,而劣质模型对整体影响甚微。
- 全局平均的风险稀释:
- 差的 PM 不上传,而一定偏移的 MM 被稀释为 $\frac 1 K$
- 训练参数中的 Ground Truth 损失锚定了模型不会偏移。
- 根据神秘言论。非对称信息增益:低熵 vs. 高熵。
- 全局平均的风险稀释: