A Comprehensive Survey of Continual Learning: Theory, Method and Application
$\Delta$ 将持续学习视为智能系统在整个生命周期中增量获取、更新、积累和利用知识的能力,核心挑战是灾难性遗忘 (Catastrophic Forgetting)。
WARNING:这篇 survey 的总结是 AI 模仿下一篇生成的。
- 两大核心目标:
- 稳定性 - 可塑性权衡 (Stability-Plasticity Trade-off)
- 过度可塑性 → 干扰旧知识;过度稳定性 → 难以适应新分布
- 解决思路:经验回放、贝叶斯推理、梯度投影、架构分离
- 任务内/任务间泛化性 (Intra/Inter-task Generalizability)
- 任务内:训练集→测试集的泛化;任务间:适应增量分布变化
- 关键因素:损失景观平坦度、任务相似性、参数空间结构
- 稳定性 - 可塑性权衡 (Stability-Plasticity Trade-off)
- 所以需要协作的内容也比较清晰了:
- 推理侧:在动态数据分布下保持低遗忘率与高适应性
- 训练侧:在资源受限下实现知识积累与高效更新
- Survey 的核心问题 (对应论文结构)
- Sec 2: Setup - 基本公式、典型场景、评估指标
- Sec 3: Theoretical Foundation - 稳定性 - 可塑性权衡、泛化性分析
- Sec 4: Method - 五大类方法的详细分类与实现
- Sec 5-6: Application - 场景复杂性与任务特异性的适配
- Sec 7: Discussion - 趋势、跨方向前景、神经科学联系
- Method 分类 (按论文五大方向展开)
4.1 Regularization-Based Approach
- 核心思想:添加显式正则化项,参考旧模型参数或行为以平衡新旧任务
- Weight Regularization (参数级约束)
- 重要性估计:EWC[222] (FIM 对角近似), SI[497] (轨迹贡献), MAS[12] (预测敏感度), RWalk[63] (混合策略)
- 实现优化:R-EWC[272] (FIM 旋转对角化), XK-FAC[239] (批归一化适配), ALASSO[329] (非对称惩罚)
- 扩展 - 重归一化:IMM[245], ResCL[240], P&C[382], AFEC[441], Linear Connector[258]
- 隐式正则:VCL[318], NVCL[420], CLAW[7], GVCL[280], VAR-GPs[206]
- 神经元级:NPC[325], UCL[9], AGS-CL[196]
- Function Regularization (输出/特征级约束)
- 知识蒸馏:LwF[255], LwF.MC[365], LwM[93], EBLL[362], GD[241]
- 结合回放:iCaRL[365], EEIL[53], LUCIR[165], PODNet[102], DER[46]
- 函数空间贝叶斯:FRCL[417], FROMP[326], S-FSVI[378]
- 条件生成:MeRGANs[464], DRI[452], LifelongGAN[500]
4.2 Replay-Based Approach
- 核心思想:近似并恢复旧数据分布,通过回放缓解遗忘
- Experience Replay (存储少量旧样本)
- 样本选择:Reservoir Sampling[67], Ring Buffer[281], Mean-of-Feature[365], GSS[16], CCBO[40], OCS[491], ASER[391], RM[27], GCR[418]
- 压缩/增强:AQM[48] (VQ-VAE 压缩), MRDC[444] (DPP 压缩率), RAR[234] (对抗增强+MixUp)
- 辅助信息:IL2M[31], SNCL[139] (类统计), RRR[110], EPR[380] (注意力图)
- 样本利用:
- 梯度约束:GEM[281], A-GEM[66], LOGD[411], MER[369], BCL[358], MetaSP[407]
- 选择性回放:MIR[13] (优先遗忘样本), HAL[64] (锚点稳定预测)
- 结合蒸馏:iCaRL[365], EEIL[53], LUCIR[165], BiC[468], WA[512], SS-IL[10], PODNet[102], Co2L[57], GeoDL[396], ELI[193], DDE[172], TAMiL[36], D+R[164], FOSTER[435]
- 过拟合缓解:LiDER[39] (Lipschitz 约束), MOCA[493] (表征扩展), DER/DER++[46], X-DER[41], GDumb[348]
- Generative Replay (训练生成模型回放)
- 框架:DGR[392], MeRGAN[464], FearNet[211], ILCAN[472], GAN-Memory[81]
- 结合策略:权重正则化[318,383,438,440], 经验回放[158,440], 参数分配[322]
- 生成模型类型:GANs (细粒度但标签不一致), VAEs (标签可控但粒度模糊), L-VAEGAN[483] (混合)
- Feature Replay (特征级分布恢复)
- 特征蒸馏:GFR[273], FA[181], DSR[525]
- 统计恢复:IL2M[31], SNCL[139] (均值/协方差)
- 表征偏移估计:RER[419], REMIND[156], ACAE-REMIND[437], FeTrIL[341]
- 预训练结合:[321] 系统研究大规模预训练下的特征回放
4.3 Optimization-Based Approach
- 核心思想:显式设计/操纵优化程序,直接控制梯度更新方向
- 梯度投影
- 参考旧输入空间:OWM[496], AOP[146], OGD[115], Orthog-Subspace[65]
- 参考旧梯度空间:GPM[380], CGP[68], FS-DGPM[90], CUBER[261], TRGP[260]
- 参考零空间:Adam-NSCL[448], AdNS[227], NCL[202], RGO[266]
- 元学习/学会学习
- 表征稀疏化:OML[186], ANML[30], AIM[238]
- 结合经验回放:MER[369], iTAML[357], La-MAML[148], OSAKA[49]
- 架构优化:MERLIN[223], PR[161], MARK[176], ARI[446]
- 损失景观优化
- 平坦最小值:Stable-SGD[313] (训练策略调整), MC-SGD[312] (模式连通性), Linear Connector[258] (线性低误差路径)
- 表征优势:自监督/预训练 + 平坦景观的协同效应[127,168,286,300,360]
4.4 Representation-Based Approach
- 核心思想:创建并利用鲁棒表征优势,提升持续学习能力
- 自监督学习集成
- 对比学习:LUMP[286] (任务插值), MinRed[349] (去相关回放), CaSSLe[118] (状态映射蒸馏), Co2L[57] (监督 + 自监督对比), DualNet[343] (快慢学习者)
- 预训练骨干应用
- 固定骨干:Side-Tuning[506], DLCFT[394], TwF[42], GAN-Memory[81], ADA[113]
- Prompt 调优:L2P[458], CODA-Prompt[400], DualPrompt[457], S-Prompts[450], HiDe-Prompt[439], Progressive Prompts[364]
- 原型分类:NCM classifier + 迁移学习[185,327,332]
- 可更新骨干:F2M[387] (预训练平坦搜索), CwD[389] (均匀散布正则), SAM[122,300] (平坦度优化), SLCA[503] (慢速微调 + 原型统计)
- 持续预训练 (CPT)
- 视觉 - 语言:IncCLIP[478] (硬负样本回放 + 多模态蒸馏)
- 语言模型:ECONET[151] (自监督 + 生成回放)
- 元训练:IDA[268] (判别器对齐), ORDER[456] (OOD 数据 + 回放)
4.5 Architecture-Based Approach
- 核心思想:构建任务特定/自适应参数,显式解耦任务干扰
- 参数分配 (固定/动态架构)
- 固定架构 + 二值掩码:Piggyback[290], HAT[384], SupSup[463], MEAT[477], WSN[199], H2[190]
- 迭代剪枝 + 释放:PackNet[291], UCL[9], CLNP[138], AGS-CL[196], NISPA[149]
- 动态扩展:DEN[492], CPG[175], DGMa/DGMw[322], RCL[475], BNS[352], LtG[254], BSA[232]
- 模型分解 (任务共享 + 任务特定组件)
- 并行分支:ACL[109], ReduNet[470], EPIE-Net[106]
- 自适应层/掩码:GVCL[280], DyTox[103], CCLL[398], CCG[1], MARK[176]
- 参数分解:APD[490] (加法), RCM[198] (SVD), FAS[304] (滤波器原子), IBP-WF[299]/IRU[178] (低秩)
- 模块化网络 (平行子网络/模块)
- 任务特定子网络:Progressive Networks[379], Expert Gate[14], PathNet[117], RPSNet[356]
- 模块组合优化:MNTDP[427], LMC[323]
- 并行学习 + 集成:Model Zoo[361], CoSCL[443], CAF[442]
- 参数分布采样:MERLIN[223], PR[161], PGMA[170], HNET[431]
- 架构设计影响:宽网络鲁棒性[309,310], BN 层偏差[59,284,345], Dropout 门控效应[311]
场景复杂性 (以视觉分类为例)
5.1 Task-Agnostic Inference (CIL)
- 核心挑战:任务身份预测 ≈ OOD 检测,需同时解决遗忘与分类
- 经验回放 + 蒸馏框架:
- 数据空间:iCaRL[365], GSS[16], Mnemonics[276], TP-CIL[413], GDumb[348], DER++[46], RMM[275], HAL[64], MRDC[444], CSI[218], X-DER[41]
- 特征空间:LUCIR[165], PODNet[102], TPCIL[413], PCL[171], AANets[274], DER[479], DDE[172], GeoDL[396], PASS[523], Co2L[57], AFC[200], SP-CIL[467], ELI[193], CwD[389], CSCCT[21], FOSTER[435], FASP[304], CLS-ER[17]
- 标签空间:LwF[255], iCaRL[365], GEM[281], A-GEM[66], EEIL[53], BiC[468], WA[512], DER++[46], ScaIL[32], S&B[219], SS-IL[10], Coil[519]
- Data-Free CIL (无经验回放):
- 模型反演 + 蒸馏:DeepInversion[487], ABD[399], RRL[129], CF-IL[347]
- 统计补偿:SPB[465], IL2A[522], SSRE[525], FeTrIL[341], SDC[495], RER[419]
- 预训练骨干:Prompting[400,439,457,458], 微调[300,387,503], 原型校正[185,332,503], 迁移学习[42,113,327]
5.2 标注数据稀缺性
- Few-Shot CIL (FSCIL)
- 表征拓扑保护:TOPIC[414], ERL[99]
- 参数更新约束:FSLL[295], LCwoF[230], MgSvF[513], F2M[387]
- 元学习初始化:MetaFSCIL[74], ERDFR[265]
- 固定骨干 + 解耦学习
- 兼容表征:SPPR[524], LIMIT[518], Fact[517], ALICE[336], S3C[197], CLOM[527]
- 自适应分类器:CEC[501], GP-Tree[6], C-FSCIL[162], S3C[197]
- 辅助信息:语义向量[72,73,11], 草图[37], GAN[8]
- 半监督/无监督持续学习
- SSCL:ORDisCo[440], AAE[237], CCIC[43], NNCSL[201]
- 外部无标签数据:GD[241], L2I[412]
- UCL:[82,168] 自监督表征更新
5.3 通用学习范式 (GCL)
- Task-Free CL (TFCL) + Online CL (OCL)
- 动态架构扩展:CN-DPM[244,188], VariGrow[18], ODDL[484], InstAParam[69]
- 经验回放优化:
- 样本选择:Reservoir Sampling, InfoRS[408], GSS[16], CBRS[76], ASER[391], GDumb[348], CoPE[87]
- 动态管理:CLIB[226], GMED[192], DRO[455], MIR[13], DVC[145]
- 自适应利用:CTN[344], NCCL[486], ILOS[159], DER[46], GEM[281], A-GEM[66], DSDM[346], CoPE[87], BLD[119], SCR[289], CVT[453], OCM[147], ER-ACE[47], RAR[510], PoLRS[50], AOP[146], CV[160]
任务特异性应用
6.1 目标检测 (IOD)
- 核心挑战:旧类实例在新任务中标注为背景 (background shift)
- 知识蒸馏适配:ILOD[393], RKT[358], SID[335], RILOD[250], ERD[116], CIFRCN[153], Faster ILOD[334], DMC[505], BNC[98], IOD-ML[224]
- 未标注数据利用:BNC[98] (桥接非共现), DMC[505] (稳定性 - 可塑性权衡)
- 相关扩展:3D 检测[516], 视频检测[436], 增量少样本[340], 开放世界检测[194]
6.2 语义分割 (CSS)
- 核心挑战:背景偏移、像素级预测、重标注成本高
- 自适应蒸馏:MiB[56] (背景像素校准), ALIFE[319] (logit 正则 + 特征回放), RCIL[502] (双分支重参数化)
- 对比学习 + 蒸馏:SDR[306], UCD[481] (潜在表征聚类/分离)
- 伪标签生成:PLOP[101], RECALL[292], SSUL[61], EM[480], Self-Training[494], WILSON[55], ILLR[123]
- 辅助数据:Web crawler[292], GAN[292], 无标签数据[494], 少量旧样本[61,123,480]
- 显著性图应用:弱监督定位[55,123], 未知类定义[61]
- 相关扩展:无监督域适配[404], 增量少样本[388], 实例分割[144,128]
6.3 条件生成 (CLCG)
- 核心挑战:条件分布增量变化、生成质量维持
- 框架:DGR[392] (判别/生成模型联合持续学习)
- GANs 适配:权重正则化[440,383], 生成回放[464,483], 蒸馏[500,499], 参数分配[498,322,438], 模型分解[499,70,81]
- VAEs 适配:多头架构 + 编码器扩展 + 权重正则化[318] / 生成回放[363,5], BooVAE[112] (静态架构 + 聚合后验)
6.4 强化学习 (CRL)
- 核心挑战:任务内/任务间动态分布、状态 - 动作 - 环境交互
- 通用方法适配:EWC[222], MAS[12], VCL[318], P&C[382], AFEC[441], UCL[9], AGS-CL[196], CPR[60], Progressive Networks[379], PackNet[291], ER, A-GEM[66]
- 专用策略:
- 任务内遗忘:Benna-Fusi[204] (生物启发), PC[205] (函数正则)
- 多任务处理:OWL[213] (EWC+ 多臂老虎机), [182] (经验选择原则), CLEAR[373] (off/on-policy 混合 + 行为克隆), MTR[203] (多时间尺度子缓冲), LPG-FTW[301] (策略梯度分解), ClonEx-SAC[460] (actor/critic/探索/回放影响分析)
- 持续元训练:COMPS[35] (行为克隆 + 知识迁移)
- 基准多样性:连续控制[205,283,301,461], 迷宫导航[278,379], 视频游戏[9,60,196,222,379,441,381,415,316]
6.5 自然语言处理
- 场景适配:DIL, TIL, CIL, OCL, CPT[209]
- 方法迁移:
- 权重正则:RMR-DSE[249], SRC[270]
- 知识蒸馏:ExtendNER[315], CFID[251], CID[269], PAGeR[425], LFPT5[350], DnR[406], CL-NMT[51], COKD[385]
- 经验回放:[251,269,353,173,88,454,476,406,302,256]
- 生成回放:[425,405,511,447]
- 参数分配:[133], 模块化网络[386], 元学习[454,433,466]
- Transformer + 参数高效微调
- Adapter 调优:CPT[208], CLIF[191], AdapterCL[287], ACM[511], ADA[113]
- Prompt 调优:C-PT[526], LFPT5[350], EMP[267]
- 指令学习:PAGeR[425], ConTinTin[488], ENTAILMENT[471]
- 任务多样性:对话系统[132,133,264,287,302,449], 文本分类[88,173,331,471], 句子生成[249,302,511], 关系学习[351,366,466,476], NMT[51,130,143,385], NER[315,350,447], 多模态预训练[82,478,89,142,402]
6.6 超越任务性能
- 效率优化:经验回放难例[169], 正交梯度投影[308], GAN 训练稳定[242,416]
- 隐私保护
- 联邦持续学习:FedWeIT[489] (全局 + 稀疏任务特定参数), FedSpeech[189] (渐进剪枝 + 选择性重用), GLFC[97] (蒸馏 + 梯度补偿), CFeD[285] (辅助无标签数据蒸馏)
- 机器遗忘:子集训练[44], 历史参数/梯度[469], FIM 移除[137], 自适应参数[136], Mnemonic Code[390] (类特定编码), LIRF[485] (蒸馏 + 剪枝网络存储)
- 鲁棒性增强:图像去雨[520], 人脸防伪[376], 噪声标签[217], 对抗训练思想迁移[46,313,443,39,493]
讨论与展望
7.1 当前趋势观察
- 从"记忆稳定性"转向"学习可塑性 + 任务间泛化"
- 代表性策略:新旧解重归一化[164,258,382,441], 样本平衡利用[10,165,172,452,468,512], 后续任务空间预留[9,196,517]
- 泛化性显式提升:平坦景观优化[90,300,312,313,387], 时空尺度集成[60,442,443,41,46], 鲁棒表征获取[57,168,286,300,343,360]
- 自监督/预训练表征优势利用成为主流方向
7.2 跨方向前景
- 扩散模型:持续生成学习目标、生成回放效能提升
- 基础模型:增量预训练需求、微调遗忘挑战、专用持续学习策略
- Transformer 架构:持续学习专用设计[451,453], 任务特定性维持[450,457], NLP 参数高效技术迁移
- 多模态:对比学习稳定多模态信息、大语言模型辅助任务身份预测
- 具身 AI:自我中心感知持续学习、长期观察下的终身学习本质探索[126,436]
7.3 神经科学联系
- 突触可塑性层级
- 已学习突触稳定[155,482,507] → 权重正则化[12,222,497]
- 功能连接扩展/剪枝[26,100,368] → 扩展 - 重归一化范式[382,441,442]
- 突触可塑性元调节[3,4,78] → 元学习[120,186,369]
- 抑制性突触门控[19,54,114,179] → 二值掩码参数分配[384,438]
- 区域协作:互补学习系统 (CLS) 理论[233,296]
- 海马体:快速获取分离表征 → 经验回放缓冲[41,373,375,444,452] / 生成模型[374,392,422,438,464]
- 新皮层:渐进获取结构化知识 → 无监督表征获取[104,105], 正交性[121,474] ≈ 自监督/预训练优势[168,286,300,343,360]
- 模块化架构:前额叶皮层[124,324,421], 果蝇蘑菇体[22,23,79,314,432] ≈ 专家混合/模块化网络[14,361,443]
https://zhuanlan.zhihu.com/p/399029639
A Survey of Collaborative Inference and Learning between Edge SLMs and Cloud LLMs Algorithms, Execution, and Open Challenges
$\Delta$ 将 SLMs 和 LLMs 看作独立的 Agent,而不是 Fed 中的大小模型。
两大问题:
- 推理问题
- model 架构问题(Qwen,LLaMa)
- 任务颗粒和分布问题,资源限制问题,延迟限制问题
- 网络不稳定导致一些协同方法,例如 model swapping 或者注意力融合(Attention fusion)难以实行。
- 训练问题
- 数据异构,任务建模异构,模型异构。使得知识迁移非常困难
- non-IID 数据和个性化模型的需求,本地微调可能 overfit,中心训练有可能稀释个性化数据(所以有 Co-PLMs)
- 所以需要协作的内容也比较清晰了:
- 推理侧:特征共享、任务划分、知识迁移实现动态协作
- 训练侧:双向蒸馏、参数对齐、Adapter 模块化支持持续适配
- 推理问题
Survey 的核心问题
- 什么是大型和小型模型的边缘云协同推理范式?它的基本概念和系统架构是什么?
- 边缘云推理的主要范例和协作模式是什么?
- 为什么要以及如何研究边缘云环境中大小模型之间的协同训练?
- 为什么在边缘云协作的背景下审查 benchmark、隐私保护和垂直应用程序很重要?
Survey 框架

Collaborative Inference
- 3 种主要的协作方式:
- Task Assignment:硬路由分配,请求整体交由 SLM 或 LLM 处理
- Task Division:将计算图/语义流分解,按层、Token 或模块分配至端/云
- 混合策略 (Mixture)
- Task-Level:编排多阶段职责,结合 Assignment 与 Division
- Token-Level:在自回归生成步共享草稿与验证(Speculative Decoding)
- Task Assignment (Sec 2.1)
- 建模为多模型 Cost-Quality Trade-off,基于置信度、资源或意图动态路由
- 实现路径:Resource/Uncertainty-aware、MoE-based、Agent-based
- Resource/Uncertainty-aware:FS-GEN(System1/2 切换)、EdgeLLM(价值密度优先)、Yang et al.(算子级卸载)、U-VPA(不确定性采样)、KDSL(LLM 生成规则+边缘验证)
- MoE-based:EdgeMoE/LiteMoE(统计先验/专家合并降 I/O)、role-aware MoE(多轮对话角色路由)、CoEL(跨设备弹性部署)
- DoT 定位:根据神秘言论,归类于 Modular Collaboration。它非传统 MoE 门控,而是通过 DAG 依赖图调度将子任务视为动态“专家”,按关键路径优先路由,故与 MoE 共享“细粒度动态分配”的设计哲学类似,所以放在这里。
- Agent-based:ARAG(RAG 四智能体管线)、AgentVerse(意图组队+水平/垂直聚合)、WebAgent(具身探索)、ChatEval(多 Agent 辩论评估)、EcoAgent(云规划-边执行-边验证闭环)、MADRL(集中训练+分散推理) ^f033de
- Task Division (Sec 2.2)
- Routing & Forwarding:
- 信任/语义路由:FrugalGPT(级联路由)、Tabi(校准置信度)、Dekoninck et al.(前后质量估计)、Kag et al.(备份块预加载)、RouteLLM(层次动态规划)
- 效用/成本路由:HybridLLM(轻量编码器预测)、ZOOTER(查询级奖励)、RouterDC(双对比损失对齐)、LLM Bandit(身份向量偏好路由)、MixLLM/CITER(上下文 Bandit)、RouteT2I(图文多维质量)
- Computation Offloading:
- 结构划分:ADAS(DDPG+扩散模型选址)、CE-CoLLM(Token 置信度分流)、Li et al.(INT8 中间层切分)
- 运行时调度:Hao et al.(设备指标+置信度细粒度控制)、He et al.(隐状态无奖励策略)、AVA(联邦+多智能体强化学习)、Enhanced Hybrid Inference(用户感知效用)
- Early Exit:LITE(置信度引导退出)、LayersKip(层 Dropout+早退损失)、EE-LLM(3D 并行+KV 重算)、EESD(前 N 层+单层 Transformer 草稿)、FREE(时间一致并行+预计算残差)
- Communication Optimization:Hu et al.(混合架构降能耗 28.6%)、LLMCascades(投票验证防冗余)、EdgeShard(仅传关键 Token 特征)、PipeEdge(流水线并行切分)、Blending(多轮交互轮转切换)
- Routing & Forwarding:
- Mixture Strategies (Sec 2.3 & 2.4)
- Task-Level Mixture:
- 编排与分解:MinionS(端拆解云聚合)、HybridSD(云结构推理+端细节细化)、IntellectReq(云抽象意图)、BAIM(多模态门控融合)、HAWKEYE(LLM 惩罚 RL+SLM 展开 CoT)
- 历史增强:SlimPLM(置信度触发多阶段检索)、VELO(向量相似度调度缓存路径)、Ding et al.(交互历史 NN 检索)、Hybrid-RACA(云检索+边预测压缩记忆)、Xu et al.(迭代 DPO 持续对齐)
- RAG 自评估:Self-Knowledge(内部知识优先)、Self-RAG(反思 Token 控制)、CRAG(轻量评估器触发二次检索)、RA-ISF(三阶段自评估/检索/分解)、SlimRAG/SpeculativeRAG(实体索引/文档聚类草稿)
- Token-Level Mixture (Speculative Decoding):
- Vanilla/Algo:RSD/SpecExec(可控偏差/并行验证)、AutoMix(符号推理+RL 防幻觉)、Fu et al.(草稿-验证角色互换)、BanditSpec(多臂 Bandit 调参)
- 并行/低延迟:DiSCo(接受概率估计)、SpecDec(软判别并行验证)、PEARL/SEED(自适应草稿长度/轮转队列)
- 自推测 (Self-Speculative):Kangaroo(复用浅层+LM Head 草稿)、SWIFT(上下文感知层跳过)、ASD(扩散模型交换性并行)
- 语义骨架 (Skeleton):PICE/CoGenesis(云生成骨架/Logit 分布+端补全)、NEST(云检索+边 Token 邻居缓存)、Hao et al./Probe Sampling(端草稿+云 Token 级修正/相似度过滤)
- Token Tree 验证:LLMCad/Traversal Verification(非自回归树验证)、AdaServe/OPT-Tree(SLO 驱动动态树构建与剪枝)、Sequoia(动态规划+硬件感知深度选择)
- Task-Level Mixture:
- 3 种主要的协作方式:
Collaborative Learning / Training
- 压缩与对齐 (Sec 3.1 & 3.2)
- 剪枝/量化:Sparsity-aware Channel Pruning(软掩码重激活)、EfficientLLM(预训练期渐进结构剪枝)、Split-Transformer(端轻量编码+云量化嵌入解码)、MergeNet(低秩分解+注意力融合)
- 知识蒸馏:ATKD(任务/多样性导向+不确定性系数)、SLMREC/GKT(隐状态对齐)、DDK(领域引导采样+因子平滑)、DC-CCL(垂直切分+代理模仿)、Co-Supervised/SALT/SKD(强弱监督角色反转)
- 低秩近似:QLLMS(低秩属性驱动恢复 AQS)、DP-LoRA(分布式低秩更新降通信)、[295](分数规划+迭代惩罚联合资源分配)
- 参数兼容与模块化 (Sec 3.3 & 3.4)
- 兼容融合:Graft(兼容感知缝合)、CKI(信息容量评估两阶段转移)、Forward-OFA(行为-结构映射免反向传播组装)、DIET/FedMKT(统一骨干+云生成个性化子网/双向知识交换)、ModelGPT(LLM 自动生成定制小模型)
- Adapter 模块化:PEFT/FedCollm(LoRA 桥接+KL 正则双向提取)、Lu et al.(瓶颈适配器编码领域知识)、PLURALISM(社区 LLM 接入基础模型)、HETLoRA(高低秩混合+秩感知剪枝)、CDC-MMPG(历史多模态数据训练快速域适配器)
- 双向协同与能力注入 (Sec 3.5)
- Cloud → SLM:DUET(静态/动态层分离+超网生成)、Knowledge Card/BLADE(参数化知识库/插件式领域专家)、Progressive Distillation(云生成标签+推理联合优化)、HEF(小共情模型引导 LLM 生成)、FedCFA(反事实特征对齐全局语义)、AcKnowledge(元学习获取外部知识+用户反馈持续微调)
- SLM → Cloud (逆向监督):CROSSLM(端训练+云伪数据过滤)、SLM(端逆强化学习生成结构化样本+云并行解码蒸馏)、Purify-LLM(可信 SLM 过滤噪声+CP-δ 对齐)、ECLM/Mitchell et al.(云模型分解/Logit Delta 行为迁移)、Tang et al.(PLM 捕获头类知识作为 LLM 的 CoT 引导)
- 压缩与对齐 (Sec 3.1 & 3.2)
Benchmarks & Evaluation Protocols (Sec 4)
- 数据集构建:LEAF(用户级真实异构划分)、iNaturalist-User-120k/Landmarks-User-160k(上传者 ID/GPS 划分)、PersonalDialog/PERSONA-CHAT/LiveChat(对话角色/人口属性划分)、FedScale/FedNLP(多模态/Dirichlet 非 IID 切分)、pFL-Bench/FedMulti-modal(设备异构+缺失模态配置)
- 双重评估体系:全局泛化 (Cloud LLM) vs 本地适配 (Edge SLM);加权全局准确率/局部困惑度/本地 CTR 校正;OCPC 评估端到端流量分配效率
- 开源平台:FedML(通信-训练解耦多模式)、Flower(百万级虚拟客户端)、TFF(亿级设备部署)、LLMOps(LLM 专项监控/安全)、SpecBench(推测解码延迟/精度/算力三角评估)、MessageRewriteVal(移动端文本重写基准)
Privacy-Preserving & Secure Collaboration (Sec 5.1)
- 训练侧防护:Liu et al.(端提示适配+云优化)、DCPR(云通用模式→边区域偏好→端细粒度个性化扩散范式)、Luo et al.(联邦加密更新聚合);未来方向:不确定性引导选择性云参与、非 IID 公平聚合、反事实表示学习去偏
- 推理侧防护:RemoteRAG(嵌入空间语义差分隐私+动态安全检索阈值)、SuperICL(小模型 Prompt 注入引导推理不露原始数据)、Pan et al.(云代理模型+端符号掩码+cGAN 替身数据)、POST(隐私保护推测解码密码学优化)、Chen et al.(混合 K8s:私有云存敏感向量库+公有云弹性推理)
Vertical Applications & Industrial Frameworks (Sec 5.2)
- 工业框架:Walle(端到端部署管线,300+ 任务/10B+ 日调用)、Luoxi(Slow-Fast 学习:云潜表征辅助边实时推理+反馈)、InfiGUIAgent(两阶段层级推理+端侧多模态 GUI 微调)
- 垂直领域:
- 自动驾驶 (ADAS/EC-Drive):边处理感知/避障,云负责高层规划/常识推理;事件驱动触发云侧分布偏移处理
- 直播电商/内容理解:端提取关键帧特征,云多模态分类;降带宽但依赖关键帧选择质量
- 文化遗产/3D 建模 (LLMCO4MR/MPOD123):端碎片匹配/几何先验注入,云置信度评分/纹理合成/全局对齐
- 推荐系统 (LSC4Rec):云生成候选池,端实时上下文重排;适配意图快但依赖云候选多样性
- 医疗 (BioMistral):通用 LLM 生物医学续预训练,院内混合部署满足合规
- 移动端自动化 (AutoDroid/WebAgent):云解析语义/生成脚本,端动态分析执行;跨 App 自动化无需手动配置
Open Challenges & Future Prospects (Sec 6)
- 证据驱动的不确定性估计 (Evidence-based Uncertainty):超越 Softmax 归一化,采用未归一化 Logits + Dirichlet 分解认知/偶然不确定性,实现更细粒度信任校准与路由触发
- 自适应协同策略:从固定规则转向 RL/Meta-learning 动态优化,联合考虑任务需求、资源约束与实时反馈
- 多模态/具身智能协同:边侧实时感知+云端高层推理的深度融合,解决跨模态对齐、通信开销与个性化泛化
- 核心权衡:持续探索 Privacy-Utility-Communication 的帕累托前沿,构建可证明安全、低延迟、强鲁棒的生产级边云 LLM-SLM 系统
Edge Computing & Federated Learning Survey
边缘计算基础 ^ecbasic
- 三大优势:
- 低延迟
- 节约能源
- 可扩展性(大规模)
- 四个重要目的:
- data collection
- caching
- processing
- analysis proximity to where data is collected
- 前提是保护隐私!
4 + 1 框架
- Data,Learning,Inference + Computation
- Computation at edge usually is done via offloading $\to$ 4 + 1(+Offload)
Caching
- 同样的场景下,模型复用,参数复用等。利用空间换时间,这是一种优化
- 数据是从 Edge 流向 Server,而不是 Server 流向 Edge
- 可以有多种程度的缓存:
- 模型的 Layer 层缓存
- 应用数据
- 设备数据
- 可以分为不同的块
- 效果:可以减少延迟和节约能源
Offloading
- 计算分布式协作
- 例如 CNN 提取后,将特征交给 Server,全连接计算
- Hybrid offloading schemes
Edge Training
- 例子:G-board
- 关键要素:
- Caching 提供数据
- 评估规则约束模型
- 成本约束优化
- Transfer learning 加速训练
- 模式:
- 独立(设备要求高)
- 合作(Fed)
- 构架:
- Solo
- 主从构架
- 对等构架
- 混合构架
- 加速:
- Enabler:硬件,量化,人工参与标注迭代,软件
- Learning methods:
- 迁移学习(RecycleML with AudioNet,IMUNet,VideoNet,映射到潜空间后迁移)
- 增量学习
- 联邦学习
- 图学习
- 联合训练注意事项:
- 需要更新,更新频率和成本需要被考虑
- 如何高效低能耗是最核心的问题
- 安全和隐私在联合训练中需要被注意
Edge Inference
^723dc4
- 利用云边结合解决边缘算力小的问题
- 优化技术:
- LoRA
- 网络裁切
- 采用压缩层
- 量化模型
- 模型蒸馏
- Caching 减少重复计算
- 软硬件结合加速推理
- 两种主流方法:
- 单独设计新模型:
- 自动生成:NASNet,AmoebaNet(正则化精华),Adanet(自适应),MnasNet(RL),DARTS(可微架构)
- 人工设计:MobileNets(深度可分离卷积),ShuffleNet(驻点群卷积)
- 利用现有的模型:
- LoRA
- KD
- Compact Layer
- N Pruning
- 量化
- 单独设计新模型:
联邦学习优化(Fed)
- Fed 只是 EC 的一个部分而已,分为三类:Horizontal,Vertical,Transfer
- 四大核心挑战:
- 通信瓶颈、设备异构、非独立同分布(Non-IID)数据、隐私泄露风险
- 相关算法:
- 更新策略:
- 同步更新
- 异步更新
- 更新压缩 ^conncompress
- structured update:限制更新空间,例如利用 LoRA 或者随机掩码(稀疏更新)
- sketched update:压缩更新信息,例如量化,子采样,随机旋转(在量化之前,先对更新向量乘以一个随机正交矩阵)
- 区别:前者限制模型本身的能力,后者仍然需要计算完整梯度,仅减少通信量
- 通讯效率优化:
- DGC(稀疏化 + 动量校正 + 梯度裁剪)
- AdaComp(陈旧性计算 + 冲突移除)
- FedDropout(子集更新)
- 资源调度
- 分层联邦学习:云边端三层构架
- 基于云的联邦学习中参数的上界与用户数据集和全局数据集之间的分布距离成正比
- 将边缘设备与最优边缘服务器关联,最小化分布距离(NP-Hard,启发式解决)
- 聚类单独训练,单独协作(更新相似性)
- 区块链???
数据安全与隐私
- 数据安全(SMC)
- 掩码后聚合(设备足够时,掩码可以忽略),可能泄露群体信息?
- 同态加密,引入计算复杂度
- 差分隐私,用噪声(Laplace/Gaussian)掩盖,多样本聚合后,期望不变,但实际降低了精度
- 忽略离群数据(异常数据,攻击内容)
- 拜占庭容错(Krum,集合中位数,坐标中位数)
- 隐藏后门防御(数据投毒和模型投毒)
