TL;DR ^tldr
- 核心思想:用蒸馏代理模型(DPM)作为云 LLM 和边缘 SLM 之间的桥梁,同时解决模型异构(参数空间不通)+ 领域异构(Non-IID)+ 通信隐私三个问题。关键组件:DPM(异构桥接)+ Domain Adapter(领域保留)+ SAML(Token 对齐 + LoRA 上传)。
- 核心设计:SAML 的双向 Token 对齐 + Logits 池化,解决了 Tokenizer 不一致下无法直接算 KL 散度的问题;只上传 LoRA 参数(约 0.02%),把通信开销压得很死。
- 我的开放问题:
- DPM ↔ SLM 同步阶段到底在传递什么知识?如果 Domain Adapter 已经"吃掉"了领域和隐私信息,那剩下被同步的"通用知识"该如何被严格定义?可解释性是什么。
- 论文里 SLM 在使用阶段不被微调,那它和直接部署 DPM 的本质区别在哪?文中以"具体情景特殊性"带过,但我觉得这里有可挖的设计空间。
论文提出解决的问题关于多端学习的问题:
1. 模型异构性: 边缘设备硬件不同,部署的 SLM 架构不一样(如 Llama vs Qwen),传统的联邦学习无法直接聚合参数。
2. 领域异构性: 不同设备的本地数据分布不同,直接协同(平均)会导致性能下降。
3. 通信与隐私: 大模型参数传输开销大,且为了保护隐私,原始数据不能上传。
我目前理解的技术路线:
论文提出了 Co-PLMs 框架,核心思想是 “异构协同,代理桥梁”。
- 核心组件:蒸馏代理模型
- 辅助设计:域特定微调
- 作用: 保留本地数据的领域特性。
- 实现: 在 DPM 中插入 Domain Adapter (两层 MLP),只训练 Adapter 参数,冻结 DPM 主体。有点像 Adapter Tuning
- 关键结构:SAML
- Token 对齐发生在两个地方:DPM $\leftrightarrow$ SLM 和 DPM $\leftrightarrow$ LLM。DPM 理应是由 LLM 蒸馏来的,tokenizer 应该是一致的,为什么还需要对齐? ^e014e1
- 为了保持框架的一致性,可以适当的扩展模型,例如通过强力的 Claude Opus 作为中心模型,然后通过 Deepseek 进行蒸馏,最后在边缘部署 Qwen 或者 Llama。
- 由于 DPM 模型是蒸馏的,是无法完全学习大模型的能力的,也就是说在双向学习的过程中可能会因为多了一个中间组件,导致学习效果变差。而且如果 DPM 参数量大,对边缘设备的计算要求就会很高;如果太低, 那么学习效果可能就不好。这个该如何理解?
- 该问题不符合论文的假设
- 由于这个框架需要解决的一个问题是“为了保护隐私,原始数据不能上传”,考虑到边缘设备数据的复杂性,我觉得没法假设使用的所有数据都是可以用于训练的。边缘的隐私或者垃圾数据是否可能污染 LLM?
- 该问题不符合论文的假设,也就是只要数据在本地,那么认为安全
- 这实际上涉及到了 Fed 中安全相关的内容,这里可以暂且不考虑
- 提出一个感性理解,也就是 Domain Adapter 的使用其实可以吃掉一部分信息,包括领域信息,隐私信息。至于到了 DPM 和 SLM 同步的阶段,才是同步更干净的信息。但这就会有一个新的问题,DPM 和 SLM 同步的到底是什么知识?很玄学了
- 接下来又一个新的问题来了,文中提到只有在 DPM 和 SLM 更新 SLM,那么 SLM 没有根据使用微调的阶段吗?如果没有,使用 SLM 的意义是什么?直接用 DPM 不就行了吗?
- 实际上是有的,这个是一个一般的假设。
- 由于具体情景下的特殊性,可能需要定制化的模型,而不能直接使用现有的模型。所以直接使用 DPM 是违反一般假设的。
可以参考 https://github.com/papercode-DFL/Co-PLMs 这份开源的代码,看看一些更细节的设计是怎么样的。