FedCoLLM • Jeefy's Blog

1 min read 138 words Updated Apr 25, 2026 Created May 03, 2026

FedCoLLM 核心处理的就是多端协同的问题，旨在更高效的解决模型合并的问题。

具体来说，其框架如下：

其 Loss 设计是核心，一共两个个部分：

对于每个 Client，设计 $\mathcal{L}^k(\theta) ={\mathbb E}_{(x, y) \sim D^k} l^k_{TA}(g_{\phi+\theta}(x), y)$，和一般的设计一样
对于 Client 在 Server 端的 LoRA $\theta$ 聚合后，将 global SLM 和 LLM 进行双向知识同步，具体来说，构造 $\mathcal{L}(\theta, \omega) = \mathcal{L}^f_{FT} + \mathcal{L}^g_{FT} + \mathcal{L}^{f}_{KL} + \mathcal{L}^{g}_{KL}$，在公有数据集上进行联合训练，其中 $L_{KL}$ 表示 SLM 和 LLM 的输出 KL 散度，具体来说：
- $\mathcal{L}^f_{KD} = {\mathbb E}_{x \sim D^a} D_{KL}(f_{\psi + \omega}(x)||g_{\phi + \theta}(x))$，反之类似。比较最终输出的 KL 散度
- 可以通过软化后的 Softmax（Hinton KD 标准做法，引入温度系数 $T$）去计算 KL 散度，学习其后的隐分布，更好的去蒸馏。
  对于双向蒸馏部分，论文中还引入了平衡超参数：$\mathcal{L}_{server} = \mathcal{L}_{FT}^f(\omega) + \mathcal{L}_{FT}^g(\theta) + \lambda \left( D_{KL}(P_f|P_g) + D_{KL}(P_g|P_f) \right)$

那么具体的流程其实很清晰：