1 min read 233 words Updated Apr 29, 2026 Created May 03, 2026

TL;DR ^tldr

  • 核心思想:用蒸馏代理模型(DPM)作为云 LLM 和边缘 SLM 之间的桥梁,同时解决模型异构(参数空间不通)+ 领域异构(Non-IID)+ 通信隐私三个问题。关键组件:DPM(异构桥接)+ Domain Adapter(领域保留)+ SAML(Token 对齐 + LoRA 上传)。
  • 核心设计:SAML 的双向 Token 对齐 + Logits 池化,解决了 Tokenizer 不一致下无法直接算 KL 散度的问题;只上传 LoRA 参数(约 0.02%),把通信开销压得很死。
  • 我的开放问题
    1. DPM ↔ SLM 同步阶段到底在传递什么知识?如果 Domain Adapter 已经"吃掉"了领域和隐私信息,那剩下被同步的"通用知识"该如何被严格定义?可解释性是什么。
    2. 论文里 SLM 在使用阶段不被微调,那它和直接部署 DPM 的本质区别在哪?文中以"具体情景特殊性"带过,但我觉得这里有可挖的设计空间。

论文提出解决的问题关于多端学习的问题:
1. 模型异构性: 边缘设备硬件不同,部署的 SLM 架构不一样(如 Llama vs Qwen),传统的联邦学习无法直接聚合参数。
2. 领域异构性: 不同设备的本地数据分布不同,直接协同(平均)会导致性能下降。
3. 通信与隐私: 大模型参数传输开销大,且为了保护隐私,原始数据不能上传。

我目前理解的技术路线:
论文提出了 Co-PLMs 框架,核心思想是 “异构协同,代理桥梁”

  • 核心组件:蒸馏代理模型
    • 作用: 作为云端 LLM 和端侧 SLM 之间的中间件,用于解决模型异构的问题
    • 流程: 云端 LLM 蒸馏出 DPM -> 下发到边缘 -> 边缘 DPM 与本地 SLM 交互 -> 上传 DPM 参数。
    • 这个蒸馏模型的使用,应该是 FedMKT + FedML 的产物。
  • 辅助设计:域特定微调
    • 作用: 保留本地数据的领域特性。
    • 实现: 在 DPM 中插入 Domain Adapter (两层 MLP),只训练 Adapter 参数,冻结 DPM 主体。有点像 Adapter Tuning
  • 关键结构:SAML
    • 作用: 解决不同模型 Tokenizer 不一致、无法直接计算损失的问题。
    • 仅上传 DPM 的 LoRA 参数 (约 0.02% 模型量)。
    • 关键技术
      1. 双向 Token 对齐: 用最小编辑距离算法构建 Token 映射表。
      2. Logits 池化: 只保留 Top-K logits,解决分布稀疏问题,需要注意的是,由于有对齐机制,所以应该是对齐后,在双方同步时,分别取 Top-K,将剩下的聚合成一个,然后取并集作为计算 KL 散度的集合。
  • Token 对齐发生在两个地方:DPM $\leftrightarrow$ SLM 和 DPM $\leftrightarrow$ LLM。DPM 理应是由 LLM 蒸馏来的,tokenizer 应该是一致的,为什么还需要对齐? ^e014e1
    • 为了保持框架的一致性,可以适当的扩展模型,例如通过强力的 Claude Opus 作为中心模型,然后通过 Deepseek 进行蒸馏,最后在边缘部署 Qwen 或者 Llama。
  • 由于 DPM 模型是蒸馏的,是无法完全学习大模型的能力的,也就是说在双向学习的过程中可能会因为多了一个中间组件,导致学习效果变差。而且如果 DPM 参数量大,对边缘设备的计算要求就会很高;如果太低, 那么学习效果可能就不好。这个该如何理解?
    • 该问题不符合论文的假设
  • 由于这个框架需要解决的一个问题是“为了保护隐私,原始数据不能上传”,考虑到边缘设备数据的复杂性,我觉得没法假设使用的所有数据都是可以用于训练的。边缘的隐私或者垃圾数据是否可能污染 LLM?
    • 该问题不符合论文的假设,也就是只要数据在本地,那么认为安全
    • 这实际上涉及到了 Fed 中安全相关的内容,这里可以暂且不考虑
    • 提出一个感性理解,也就是 Domain Adapter 的使用其实可以吃掉一部分信息,包括领域信息,隐私信息。至于到了 DPM 和 SLM 同步的阶段,才是同步更干净的信息。但这就会有一个新的问题,DPM 和 SLM 同步的到底是什么知识?很玄学了
    • 接下来又一个新的问题来了,文中提到只有在 DPM 和 SLM 更新 SLM,那么 SLM 没有根据使用微调的阶段吗?如果没有,使用 SLM 的意义是什么?直接用 DPM 不就行了吗?
      • 实际上是有的,这个是一个一般的假设。
      • 由于具体情景下的特殊性,可能需要定制化的模型,而不能直接使用现有的模型。所以直接使用 DPM 是违反一般假设的。

可以参考 https://github.com/papercode-DFL/Co-PLMs 这份开源的代码,看看一些更细节的设计是怎么样的。