其核心思想非常简单:分别训练,然后聚合。
然而,简单平均导致如下两个核心问题:
- Non-IID数据下收敛性差,直接平均可能导致震荡
- 各客户端贡献差异被忽略,全局模型泛化能力受限
- FedAvg 在 Non-IID 下失效的核心数学原因是参数空间中的权重发散
- Federated Learning with Non-IID Data.pdf
- Weight divergence 指在 Non-IID 联邦学习中,各客户端基于本地数据独立训练得到的模型参数(权重)因数据分布差异而发散到损失 landscape 的不同局部最优 basin 中,直接平均这些已发散的参数会导致全局模型落入一个对所有分布都是次优的“冲突区域”,造成精度显著劣化
- 若损失函数为凸函数(如逻辑回归),整个地形只有一个盆地,不存在多 basin 冲突,因此 Non-IID 不会导致 weight divergence;深度网络的非凸性才是 basin 现象的根源。