Co-PLMs • Jeefy's Blog

1 min read 233 words Updated Apr 29, 2026 Created May 03, 2026

TL;DR ^tldr

核心思想：用蒸馏代理模型（DPM）作为云 LLM 和边缘 SLM 之间的桥梁，同时解决模型异构（参数空间不通）+ 领域异构（Non-IID）+ 通信隐私三个问题。关键组件：DPM（异构桥接）+ Domain Adapter（领域保留）+ SAML（Token 对齐 + LoRA 上传）。
核心设计：SAML 的双向 Token 对齐 + Logits 池化，解决了 Tokenizer 不一致下无法直接算 KL 散度的问题；只上传 LoRA 参数（约 0.02%），把通信开销压得很死。
我的开放问题：
1. DPM ↔ SLM 同步阶段到底在传递什么知识？如果 Domain Adapter 已经"吃掉"了领域和隐私信息，那剩下被同步的"通用知识"该如何被严格定义？可解释性是什么。
2. 论文里 SLM 在使用阶段不被微调，那它和直接部署 DPM 的本质区别在哪？文中以"具体情景特殊性"带过，但我觉得这里有可挖的设计空间。

论文提出解决的问题关于多端学习的问题：
1. 模型异构性： 边缘设备硬件不同，部署的 SLM 架构不一样（如 Llama vs Qwen），传统的联邦学习无法直接聚合参数。
2. 领域异构性： 不同设备的本地数据分布不同，直接协同（平均）会导致性能下降。
3. 通信与隐私： 大模型参数传输开销大，且为了保护隐私，原始数据不能上传。

我目前理解的技术路线：
论文提出了 Co-PLMs 框架，核心思想是 “异构协同，代理桥梁”。

核心组件：蒸馏代理模型
- 作用： 作为云端 LLM 和端侧 SLM 之间的中间件，用于解决模型异构的问题
- 流程： 云端 LLM 蒸馏出 DPM -> 下发到边缘 -> 边缘 DPM 与本地 SLM 交互 -> 上传 DPM 参数。
- 这个蒸馏模型的使用，应该是 FedMKT + FedML 的产物。
辅助设计：域特定微调
- 作用： 保留本地数据的领域特性。
- 实现： 在 DPM 中插入 Domain Adapter (两层 MLP)，只训练 Adapter 参数，冻结 DPM 主体。有点像 Adapter Tuning
关键结构：SAML
- 作用： 解决不同模型 Tokenizer 不一致、无法直接计算损失的问题。
- 仅上传 DPM 的 LoRA 参数 (约 0.02% 模型量)。
- 关键技术：
  1. 双向 Token 对齐： 用最小编辑距离算法构建 Token 映射表。
  2. Logits 池化： 只保留 Top-K logits，解决分布稀疏问题，需要注意的是，由于有对齐机制，所以应该是对齐后，在双方同步时，分别取 Top-K，将剩下的聚合成一个，然后取并集作为计算 KL 散度的集合。

Token 对齐发生在两个地方：DPM $\leftrightarrow$ SLM 和 DPM $\leftrightarrow$ LLM。DPM 理应是由 LLM 蒸馏来的，tokenizer 应该是一致的，为什么还需要对齐？ ^e014e1
- 为了保持框架的一致性，可以适当的扩展模型，例如通过强力的 Claude Opus 作为中心模型，然后通过 Deepseek 进行蒸馏，最后在边缘部署 Qwen 或者 Llama。
由于 DPM 模型是蒸馏的，是无法完全学习大模型的能力的，也就是说在双向学习的过程中可能会因为多了一个中间组件，导致学习效果变差。而且如果 DPM 参数量大，对边缘设备的计算要求就会很高；如果太低，那么学习效果可能就不好。这个该如何理解？
- 该问题不符合论文的假设
由于这个框架需要解决的一个问题是“为了保护隐私，原始数据不能上传”，考虑到边缘设备数据的复杂性，我觉得没法假设使用的所有数据都是可以用于训练的。边缘的隐私或者垃圾数据是否可能污染 LLM？
- 该问题不符合论文的假设，也就是只要数据在本地，那么认为安全
- 这实际上涉及到了 Fed 中安全相关的内容，这里可以暂且不考虑
- 提出一个感性理解，也就是 Domain Adapter 的使用其实可以吃掉一部分信息，包括领域信息，隐私信息。至于到了 DPM 和 SLM 同步的阶段，才是同步更干净的信息。但这就会有一个新的问题，DPM 和 SLM 同步的到底是什么知识？很玄学了
- 接下来又一个新的问题来了，文中提到只有在 DPM 和 SLM 更新 SLM，那么 SLM 没有根据使用微调的阶段吗？如果没有，使用 SLM 的意义是什么？直接用 DPM 不就行了吗？
  - 实际上是有的，这个是一个一般的假设。
  - 由于具体情景下的特殊性，可能需要定制化的模型，而不能直接使用现有的模型。所以直接使用 DPM 是违反一般假设的。

可以参考 https://github.com/papercode-DFL/Co-PLMs 这份开源的代码，看看一些更细节的设计是怎么样的。