核心问题:
- 模态异构型
- 模型结构异构型
四个核心组件:
- CCL(Cross Modal Contrastive Learning)
- 模态统一映射到一个潜空间
- AMT(Adaptive Multimodal Tuning)
- 在联合学习中保持领域多模态知识
- MMA(Modality-aware Model Aggregation)
- 减轻模态异构带来的参数噪声?(为什么会带来噪声?
- SE-CCL(SLM-Enhanced Cross-Modal Contrastive Learning)
- 进行知识迁移(云边模型知识迁移)
两层框架:
Cloud Server,全局有共有数据集 $D'$
Edge Device $\cal D$,拥有私有数据集 $D$,和私有公开数据集 $D_j'$
所有模型被统一为 $M=\{E, C, B\}$,Extractor(特征提取),Connector,Backbone,那么 $B^d$ 就是 dev 的 SLM,$B^s$ 就是 server 的 LLM
CCL
首先引入了一个衡量模态空间容量的一个公式:
$${\bf V} = \sqrt {{\rm det}(A^T \cdot A)} $$