task-todo:""



阅读顺序(这几周):
- Survey Federated Learning.pdf
- ML-ECS.pdf
- A Survey of Collaborative Inference and Learning between Edge SLMs and Cloud LLMs Algorithms, Execution, and Open Challenges.pdf
- A Comprehensive Survey of Continual Learning.pdf
- Decentralized federated learning of deep neural networks on non-iid data.pdf (Fed)
- Empirical Guidelines for Deploying LLMs onto Resource-constrained Edge Devices.pdf (量化等 EC 方法)
- DNN Partitioning for Cooperative Inference in Edge Intelligence.pdf
- Floe Federated Specialization for Real-Time LLM–SLM Inference.pdf
Device Offload...... Fuck it !
ZeRO-Offload (Ren et al., USENIX ATC 2021) —— offloading 的奠基系统工作
FlexGen (Sheng et al., ICML 2023) —— 推理 offloading + 线性规划成本模型,重点看其效用建模如何形式化
ZeRO-Infinity (Rajbhandari et al., SC 2021) —— 多层存储 hierarchy
Alpa (Zheng et al., OSDI 2022) —— 自动并行的搜索空间设计,对你的"通信图+计算图统一"是直接参考
Oort (Lai et al., OSDI 2021) —— FL 中的异构感知客户端选择
FedScale (Lai et al., ICML 2022) —— FL 系统异构性的标准化基准
Math:
- The Minimax Complexity of Distributed Optimization.pdf
- The Min-Max Complexity of Distributed Stochastic Convex Optimization with Intermittent Communication.pdf
- [[Lower Bounds for Non-Convex Stochastic Optimization.pdf
- 凸优化 bv_cvxslides.pdf]]
- [https://web.stanford.edu/class/ee363/lectures/]
| 节点 | 新增核心概念 | 直接依赖 |
|---|---|---|
| Actor-Critic | Critic 网络、V(s) baseline | PG |
| TRPO | KL 约束、信赖域 | PG |
| PPO | Clipped objective、IS ratio r_t | TRPO 思想 + PG |
| RLHF | Reward Model、人类偏好 | PPO |
| GRPO | Group-relative advantage、无 Critic | PPO - Critic |
| GSPO | Sequence-level IS (geometric mean) | GRPO + IS |
| HACPO | Cross-agent rollout reuse、Capability-aware 机制 | GSPO + 异构设定 |
PG (Policy Gradient)
│ └── Log-derivative trick: ∇J = E[∇log π_θ(a|s) · G_t]
│ └── 问题:蒙特卡洛回报 G_t 方差极高
│
├─→ Actor-Critic (A2C/A3C)
│ └── 引入 Critic 网络估计 V(s) 替代 G_t 作为 baseline
│ └── 解决:PG 高方差(你之前问的 baseline 机制在此成熟)
│ └── 问题:需要同时训练 Actor + Critic,步长敏感
│
├─→ TRPO (Trust Region Policy Optimization)
│ └── 约束新旧策略的 KL 散度 ≤ δ,保证更新在安全区域内
│ └── 解决:策略更新不稳定、步长难调
│ └── 问题:二阶优化(Fisher信息矩阵)计算昂贵
│
├─→ PPO (Proximal Policy Optimization)
│ └── Clipped Surrogate Objective:
│ L^{CLIP}(θ) = E[ min(r_t·A_t, clip(r_t,1-ε,1+ε)·A_t) ]
│ 其中 r_t = π_θ(a|s)/π_θ_old(a|s) 为 [Importance Sampling ratio]
│ └── 解决:用一阶裁剪替代 TRPO 的二阶约束,实现简单且稳定
│ └── 关键组件:IS ratio + Advantage + Clipping(这三者 HACPO 全继承)
│ └── 问题:LLM 场景下需要 Critic 网络,显存开销大;且 RLHF 需额外训练 Reward Model
│
├─→ RLHF (Reinforcement Learning from Human Feedback)
│ └── 用人类偏好训练 Reward Model (RM),再用 PPO 优化 LLM
│ └── 问题:RM 训练昂贵、PPO 的 Critic 对 LLM 不友好(显存 ×2)
│
├─→ DPO (Direct Preference Optimization) [旁支]
│ └── 绕过 RM 和 PPO,直接从偏好数据优化策略
│ └── 解决:RLHF 流程复杂
│ └── 注意:DPO 是离线方法,与 RLVR 的在线验证路线不同
│
├─→ RLVR / GRPO (Group Relative Policy Optimization)
│ └── 废弃 Critic 网络:对同一 prompt 采样 G 个 responses,
│ 用组内奖励的 mean/std 构造 advantage:
│ A_i = (R_i - mean(R_{1:G})) / std(R_{1:G})
│ └── 解决:RLHF 需要 RM 的问题;RLVR 中奖励可验证(对错/通过失败),天然适配
│ └── 依赖:PPO 的 Clipping 框架 + PG 的梯度形式 - Critic
│ └── 问题:token-level IS ratio 在 MoE/长序列/异构场景下方差爆炸
│
├─→ GSPO (Group Sequence Policy Optimization)
│ └── 将 GRPO 的 token-level IS 改为 sequence-level IS:
│ s = (π_θ(y) / π_θ_old(y))^{1/|y|} (几何平均)
│ └── 解决:GRPO 在 MoE 模型中因不同 expert 激活导致 token IS 异常
│ └── 依赖:GRPO + Sequence-level Importance Sampling
│ └── 问题:单 agent 孤立训练,on-policy 采样成本高,rollout 无法跨模型复用
│
└─→ HACPO (Heterogeneous Agent Collaborative PO)
└── 多异构 agent 共享 rollout,双向 mutual learning
└── 新增:Capability-Aware Baseline + ω 系数 + Exponential IS + Stepwise Clip
└── 解决:GSPO 的孤立训练效率低 + 异构带来的分布偏移与能力错配
└── 依赖:GSPO 的全部组件 + Off-policy correction + Multi-agent setting
PG 的演进史本质上是方差缩减、样本效率与训练稳定性的三线作战史。按问题导向的脉络,值得学习的节点如下:
阶段 0:起点 —— 如何直接对策略求梯度?
问题:价值方法(如 Q-learning)需要先学 $Q(s,a)$ 再间接导出策略,能不能直接优化 $\pi_\theta$?
方案:REINFORCE / Vanilla PG(Williams, 1992)
- 核心:$\nabla J = \mathbb{E}[\nabla_\theta \log \pi_\theta(a|s) \cdot G_t]$
- 代码对应:你贴的那份
tutorial_PG.py就是这个 - 必读:理解策略梯度定理的对数导数技巧(log-derivative trick),这是所有 PG 的根基
遗留问题:$G_t$ 是完整轨迹回报,方差极高;且必须等 episode 结束才能更新。
阶段 1:方差爆炸 —— 回报波动太大怎么办?
问题:同一策略采样的两条轨迹,$G_t$ 可能一个 +100 一个 -50,梯度方向被噪声淹没。
方案:Baseline(Sutton et al., 2000)
- 核心:将 $G_t$ 替换为 $G_t - b(s)$,其中 $b(s)$ 通常取状态价值 $V(s)$
- 产物:Advantage Function $A(s,a) = Q(s,a) - V(s)$,衡量动作"比平均水平好多少"
- 必读:证明基线不改变梯度期望(无偏性)但削减方差
遗留问题:$V(s)$ 从哪来?若用 MC 估计 $V$,仍需要完整轨迹。
阶段 2:实时更新 —— 必须等结束才能学习?
问题:MC 方法只能 episode 结束后统一回溯, credit assignment 差,且无法在线调整。
方案:Actor-Critic(A2C / A3C, Mnih et al., 2016)
- 核心:用 Critic 网络 $V_\phi(s)$ 的 TD 误差 $\delta_t = r_t + \gamma V_\phi(s_{t+1}) - V_\phi(s_t)$ 近似 Advantage
- 效果:单步即可更新 Actor,无需等 episode 结束
- 必读:A2C 的同步更新机制;A3C 的多线程异步思想(现已基本被 A2C 取代)
遗留问题:纯 TD 估计有偏;步长稍大策略就崩溃(神经网络非线性导致 $\pi_\theta$ 变化剧烈)。
阶段 3:偏差-方差权衡 —— MC 无偏但方差大,TD 低方差但有偏?
问题:一步 TD $\delta_t$ 偏差大,MC $G_t$ 方差大,如何插值?
方案:GAE(Generalized Advantage Estimation, Schulman et al., 2016)
- 核心:用参数 $\lambda \in [0,1]$ 加权多步 TD 误差:
$$$$
- $\lambda=0$:纯 TD(低方差,有偏);$\lambda=1$:纯 MC(无偏,高方差)
- 重要:理解 $\lambda$ 的调节作用,这是调参 PPO 时的关键超参
遗留问题:仍是 on-policy,每更新一次 $\theta$,旧轨迹数据全部作废,样本效率极低。
阶段 4:样本效率 —— on-policy 每步都废数据?
问题:环境交互成本高(如机器人、游戏 API),能否复用旧策略采样的数据?
方案:TRPO(Trust Region Policy Optimization, Schulman et al., 2015)
- 核心:用 Importance Sampling(IS)比率 $r_t(\theta) = \frac{\pi_\theta(a|s)}{\pi_{\theta_{old}}(a|s)}$ 复用旧数据
- 约束:强制新旧策略的 KL 散度 $D_{KL}(\pi_{\theta_{old}} \| \pi_\theta) \leq \delta$,防止分布偏移导致 IS 爆炸
- 重要:理解"信任区域"(trust region)思想——策略每次只走一小步
遗留问题:KL 约束需要二阶优化(Fisher Information Matrix),计算昂贵,工程落地困难。
阶段 5:工程落地 —— 如何不用二阶优化实现信任区域?
问题:TRPO 理论漂亮,但 Fisher 向量积(FVP)实现复杂且不稳定。
方案:PPO(Proximal Policy Optimization, Schulman et al., 2017)
- 核心:Clipped Surrogate Objective:
$$$$
- 效果:用一阶梯度近似达到 TRPO 的稳定性,实现简单(几十行代码)
- 必读:PPO 是当前连续控制与 LLM RLHF 的工业默认基线,必须掌握 clip 机制与 $\epsilon$ 的作用
遗留问题:单机单线程采样仍是瓶颈。
阶段 6:大规模并行 —— 如何分布式采样?
问题:单环境交互速度跟不上 GPU 训练速度。
方案:IMPALA / V-trace(Espeholt et al., 2018)
- 核心:解耦 Actor(多台 CPU 并行环境交互)与 Learner(GPU 集中梯度更新)
- 修正:用 V-trace 截断 IS 比率,修正 off-policy 偏差
- 了解:这是 DeepMind 大规模系统的标配,除非你做多智能体/分布式 RL,否则优先级低于 PPO
| 时间 | 题目 | 链接 | 分类 | 备注 |
| Mar 2026 | Heterogeneous Agent Collaborative Reinforcement Learning | https://arxiv.org/abs/2603.02604 | 多智能体系统 | 异构智能体 |
| Nov 2025 | MARFT: Multi-Agent Reinforcement Fine-Tuning | https://arxiv.org/abs/2504.16129 | 多智能体系统 | LaMAS-train schemes |
| July 2025 | MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning | https://aclanthology.org/2025.acl-long.1459/ | 多智能体系统 | LaMAS-train |
| Mar 2025 | ReMA: Learning to Meta-think for LLMs with Multi-agent Reinforcement Learning | https://arxiv.org/abs/2503.09501 | 多智能体系统 | LaMAS-train |
| Jul 2025 | How to Train a Leader: Hierarchical Reasoning in Multi-Agent LLMs | https://arxiv.org/abs/2507.08960 | 云边端场景,多智能体系统 | LaMAS-train |
| August 2024 | Reconcile: Round-table conference improves reasoning via consensus among diverse llms. | https://aclanthology.org/2024.acl-long.381/ | 多智能体系统 | LaMAS-discuss off-the-shelf |
| Jun 2024 | Improving factuality and reasoning in language models through multiagent debate. | https://openreview.net/forum?id=zj7YuTE4t8 | 多智能体系统 | LaMAS-discuss |
| Jul 2024 | Debating with More Persuasive LLMs Leads to More Truthful Answers | https://arxiv.org/abs/2402.06782 | 多智能体系统 | LaMAS-debate |
| Feb 2025 | Multi-LLM Collaborative Search for Complex Problem Solving | https://arxiv.org/abs/2502.18873 | 多智能体系统 | LaMAS-MCTSearch |
| Mar 2025 | Acc-collab: An actor-critic approach to multi-agent llm collaboration. | https://openreview.net/forum?id=nfKfAzkiez | 多智能体系统 | LaMAS-train-actor/critic |
| Sep 2025 | Two heads are better than one: Dual-model verbal reflection at inference-time | https://arxiv.org/abs/2502.19230 | 多智能体系统 | LaMAS-trained critic model-ASAS |
| Oct 2025 | Malt: Improving reasoning with multi-agent llm training. | https://arxiv.org/abs/2412.01928 | 多智能体系统 | LaMAS-train-SFT+DPO(PPO的改进) |
| Mar 2025 | Sweet-rl: Training multi-turn llm agents on collaborative reasoning tasks | https://arxiv.org/abs/2503.15478 | 多智能体系统 | LaMAS-train-multiturn 和上面的都不同,这个是动态多轮协作,有点类似debate |
| Jan 2025 | From Drafts to Answers: Unlocking LLM Potential via Aggregation Fine-Tuning | https://arxiv.org/abs/2501.11877 | 云边端场景 | hierarchical-train-Aggregate fine-tuning |
| Apr 2025 | Towards hierarchical multi-agent workflows for zero-shot prompt optimization. | https://arxiv.org/abs/2405.20252 | 多智能体系统 | hierarchical-prompt optimization(CEO-manager-worker LLM/layer) |
| Oct 2025 | MALMM: Multi-Agent Large Language Models for Zero-Shot Robotic Manipulation | https://ieeexplore.ieee.org/abstract/document/11247340 | Embodied AI | hierarchical-plan/control/supervisor |
| Sep 2024 | Training language models to self-correct via reinforcement learning. | https://arxiv.org/abs/2409.12917 | 多智能体系统 | |
| Aug 2024 | Selectllm: Query-aware efficient selection algorithm for large language models | https://arxiv.org/abs/2408.08545 | 多智能体系统 | |
| Feb 2024 | Deepseekmath: Pushing the limits of mathematical reasoning in open language models. | https://arxiv.org/abs/2402.03300 | 多智能体系统,RL | |
| Jan 2025 | Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning | https://arxiv.org/abs/2501.12948 | RL | |
| Jan 2025 | Kimi k1. 5: Scaling reinforcement learning with llms. | https://arxiv.org/abs/2501.12599 | RL |
一句话学习优先级
| 优先级 | 内容 | 掌握标准 |
|---|---|---|
| ★★★ 必读 | REINFORCE → Baseline → A2C → PPO | 能独立写出 A2C 和 PPO 的 PyTorch 代码 |
| ★★☆ 重要 | GAE, TRPO 的信任区域思想 | 能解释 $\lambda$ 和 KL 约束的作用 |
| ★☆☆ 进阶 | IMPALA / V-trace | 知道分布式 off-policy PG 的存在即可 |
建议路径:先把你那份 REINFORCE 代码跑通并手推 loss 的梯度形式 → 加入 Baseline 改成 A2C → 最后升级到 PPO。中间遇到样本效率瓶颈时,再回头看 TRPO 和 GAE 的理论动机。
基于 New Things
┌─ 聚合策略 ──→ FedAtt
│
┌─ FedAvg ──→ FedProx ─┼─ Client Drift ──→ SCAFFOLD
│ │ │
│ │ └─ 目标不一致 ──→ FedNova
│ │
│ └─ 个性化 ──→ pFedMe ──→ MOON ──→ FedBN ──→ APFL
│
├─ 模型异构 ──→ FedMD ──→ FedMKT ──→ Co-PLMs
│
├─ 去中心化 ──→ D-PSGD ──→ Hat-DFed
│
├─ 通信压缩 ──→ FedPETuning/Quantization/Prune
│
└─ 隐私安全 ──→ SMC ──→ Turbo-Aggregate
LM架构 ──→ RNN ──→ LSTM/GRU ──→ Transformer
│ │
│ ├─ Flash/Sparse/SWA/GQA
│ │
│ ├─ Mamba/SSM ──→ Hybrid
│ │
│ └─ RDT ──→ Ring/Infini
│
└─→ LoRA(微调) ──→ FL+LoRA
持续学习 ──→ FCL
边缘智能 ──→ DNN Partitioning ──→ Floe ──→ LLM边缘部署
|
└─→ Jupiter(资源高效协同推理系统)
数学基础 ──→ 凸优化 ──→ ┌─ Minimax Complexity
│ (分布式优化下界)
│
├─ Intermittent Communication
│ (间歇通信复杂度)
│
└─ Non-Convex Lower Bounds
(非凸优化下界)
知识蒸馏 ──→ DFKD ──→ FL+KD融合
事实上这也不算 DL Theory 的发明,实际上这样的结论在 EoS(Elements of Statistics) 里面就有提及,因为特征值大的情况下更好构造样条逼近(高频分量对应的能量越小),对应的特征分量会更容易学习,理论上分析 RKHS 范数就能够解释这一点;在假设各向同性的情况下,最小特征值对训练的影响会更显著,网络为了能够逼近最小特征值的粗糙变化,不得不保留很多高频特征,从而使得特征值衰减由最差的方向 (Min Smoothness) 来决定。
不过现实中神经网络往往不像 NTK 那样各方向衰减速率相同,它其实是各向异性的,也就是你说的会倾向于学习低频平滑的特征。所以像这种高频特征爆炸的函数,拟合效果可能确实没那么理想,但你选用传统的方法的收敛速度也许只会更慢。
尽管如此,我看过的很多关于神经网络 approximation error 的文章都是用的 ReLu 激活函数,因为它能更好地逼近 B-样条(分段多项式)。我还没有试验过,不过我的直觉告诉我选用 ReLu 比 tanh 函数的收敛要快。
应该是 The Elements of Statistical Learning (ESL) 这本书,不好意思记错书名了;在 ESL 5.8 里面用 RKHS 那一套理论分析样条逼近对应不同特征值下的先验方差以及各自目标函数对高频组分的惩罚。
可以看 Matus Telgarsky 的dlt lecture notes, google一下就有
TensorBoard或者Weights & Biases (W&B)
用DeepL做翻译辅助,它的学术翻译质量比Google强很多。然后用Grammarly或者Quillbot做语法检查和润色
Grad-CAM
SKA-Bench
🔴 Tier 1:奠基性与理论基石(必读)
| 论文简称 | 完整引用与链接 | 核心贡献 |
|---|---|---|
| FedAvg | McMahan et al., Communication-Efficient Learning of Deep Networks from Decentralized Data, AISTATS 2017 PMLR(https://proceedings.mlr.press/v54/mcmahan17a.html) | 首次形式化联邦学习范式,提出迭代模型平均框架,奠定通信效率评估基准 |
| FedProx | Li et al., Federated Optimization in Heterogeneous Networks, MLSys 2020 arXiv(https://arxiv.org/abs/1812.06127) | 引入近端项约束本地更新,理论保证非IID数据下的收敛性,解决系统异构问题 |
| SCAFFOLD | Karimireddy et al., SCAFFOLD: Stochastic Controlled Averaging for Federated Learning, ICML 2020 PMLR(https://proceedings.mlr.press/v119/karimireddy20a.html) | 用控制变量校正客户端漂移( Client Drift ),首证Non-IID下线性加速收敛 |
| Lower Bounds | Woodworth et al., Minimax Complexity of Federated Learning, COLT/NeurIPS 2021-2023系列 | 建立非凸/非IID下一阶算法通信复杂度下界,划定理论天花板 |
🟠 Tier 2:核心算法与关键扩展(精读)
| 论文简称 | 完整引用与链接 | 核心贡献 |
|---|---|---|
| FedNova | Wang et al., Tackling the Objective Inconsistency Problem in Heterogeneous FL, NeurIPS 2020 arXiv(https://arxiv.org/abs/2007.07481) | 通过归一化本地更新步数消除目标函数不一致,兼容多种本地优化器 |
| MOON | Li et al., Model-Contrastive Federated Learning, CVPR 2021 OpenAccess(https://openaccess.thecvf.com/content/CVPR2021/html/Li_Model-Contrastive_Federated_Learning_CVPR_2021_paper.html) | 将对比学习引入客户端表征对齐,缓解特征空间偏移 |
| FedBN | Li et al., FedBN: Federated Learning on Non-IID Features via Local Batch Normalization, ICLR 2021 OpenReview(https://openreview.net/forum?id=6YEQUn0QXG) | 仅本地维护BN统计量,有效解耦特征分布异构与模型参数聚合 |
| pFedMe | Dinh et al., Personalized Federated Learning with Moreau Envelopes, NeurIPS 2020 arXiv(https://arxiv.org/abs/2006.08848) | 基于Moreau包络构建个性化优化框架,平衡全局共享与本地适配 |
🟡 Tier 3:前沿方向与系统优化(选读)
| 方向 | 代表论文 | 价值定位 |
|---|---|---|
| 通信压缩 | Reisizadeh et al., FedPAQ: Periodic Averaging and Quantization, AISTATS 2020 PMLR(https://proceedings.mlr.press/v108/reisizadeh20a.html) | 量化+本地更新联合分析,刻画精度-通信Pareto前沿 |
| 个性化/多任务 | Fallah et al., Personalized Federated Learning: A Meta-Learning Approach, NeurIPS 2020 arXiv(https://arxiv.org/abs/2002.07948) | 将MAML框架迁移至联邦场景,支持快速客户端适配 |
| 理论泛化 | Deng et al., Adaptive Federated Learning with Self-Adjusting Weights, ICML 2023+ | 动态聚合权重理论,关联数据质量与贡献度评估 |
| 拆分学习融合 | Thapa et al., SplitFed: When Federated Learning Meets Split Learning, AAAI 2022 arXiv(https://arxiv.org/abs/2004.12088) | 混合架构降低客户端计算负载,量化拆分点-通信耦合关系 |
| 方向 | 核心问题与挑战 | 必读论文/代表性进展 |
|---|---|---|
| 1. 极端通信方案 (Extreme communication) | 单次/极少次通信能否收敛?容忍精度损失换取通信极致压缩的理论边界。 | [Guha et al., "One-shot Federated Learning", arXiv 2019] [Zhu et al., "Data-Free Knowledge Distillation for Deep Neural Networks", ICCV 2020] |
| 2. 通信压缩与帕累托前沿 (Communication reduction & Pareto frontier) | 局部更新、量化、稀疏化、误差补偿的组合效应;需系统绘制“精度-通信预算”帕累托曲线。 | [Reisizadeh et al., "FedPAQ: A Communication-Efficient FL Method", AISTATS 2020] [Wang et al., "Attack of the Tails: Yes, You Really Can Backdoor FL", NeurIPS 2020] |
| 3. 新型异步模型 (Novel models of asynchrony) | 突破传统“有界延迟”假设;面向设备自主唤醒/休眠的事件触发通信与陈旧梯度控制。 | [Xie et al., "Asynchronous Federated Optimization", ICLR 2020] [Chen et al., "On the Convergence of Federated Averaging with Asynchronous Updates", 2020] |
| 4. 异构性诊断 (Heterogeneity diagnostics) | 训练前快速量化统计/系统异构程度(如局部差异度、Earth Mover's Distance);指导自适应聚合策略。 | [Li et al., "Measuring the Effects of Non-IID Data Distribution for FL", arXiv 2020] [Karimireddy et al., "SCAFFOLD: Stochastic Controlled Averaging for FL", ICML 2020] |
| 5. 细粒度隐私约束 (Granular privacy constraints) | 样本级/设备级差异化隐私预算分配;混合隐私限制下的精度-隐私帕累托优化。 | [Thakkar et al., "Differentially Private Learning with Adaptive Clipping", arXiv 2019] [Hu et al., "Personalized FL with Differential Privacy", IEEE IoTJ 2022] |
| 6. 超越监督学习 (Beyond supervised learning) | 无标注/弱标注数据利用;联邦自监督/对比学习、联邦强化学习、聚合统计与探索性分析。 | [Zhuang et al., "Federated Self-Supervised Learning", ICLR 2022] [Liu et al., "Federated Reinforcement Learning: Algorithms, Complexity, and Challenges", 2020] |
| 7. 生产化部署 (Productionizing FL) | 概念漂移(Concept Drift)、昼夜节律(Diurnal Variations)、冷启动、跨域持续学习与系统容错。 | [Bonawitz et al., "Towards Federated Learning at Scale: System Design", SysML 2019] [Shoham et al., "Overcoming Catastrophic Forgetting in FL", 2019] |
| 8. 基准建设 (Benchmarks) | 构建贴近真实分布的 Non-IID 数据集、统一系统仿真框架、标准化评估协议与可复现性。 | [Caldas et al., "LEAF: A Benchmark for Federated Settings", arXiv 2018] [He et al., "FedML: A Research Library and Benchmark for FL", NeurIPS 2020] |
边缘智能与大语言模型协同:从数学基础到前沿实践的并行学习蓝图
本报告旨在为有志于探索边缘智能与大语言模型(LM)协同领域的研究者,构建一个系统化、分层次的学习框架。该框架以“基础→进阶→前沿”为纵向主线,并围绕“边缘智能”、“大语言模型”及“数学基础”三大核心支柱展开横向并行的知识学习。通过整合经典奠基性工作与近年来高价值的顶级会议成果,本路线图将引导学习者逐步深入,不仅掌握各项技术本身,更能理解其内在的逻辑关$\circ$ 联与知识拓扑,为未来的学术研究或工程实践奠定坚实的基础。
第一阶段:理论基石与宏观认知
此阶段的目标是建立坚实的理论基础和对研究领域的宏观认知。学习者需首先掌握支撑整个知识体系的数学工具,然后理解边缘智能与大语言模型的基本概念、核心架构与面临的根本性挑战。这一阶段的学习是后续所有进阶和前沿探索的根基。
数学基础路径:
- 凸优化 (Convex Optimization):
* 学习目标: 掌握凸集、凸函数、凸优化问题的标准形式及其基本性质,了解梯度下降法、内点法等核心求解算法的思想。
* 核心文献: Boyd, S., & Vandenberghe, L. (2004). Convex Optimization. Cambridge University Press [13, 14, 15, 19, 36, 37, 38, 39, 41, 50, 51, 52, 96, 97].
* 功能角色: 概念引入与方法论基础。这本书是凸优化领域的权威教材,几乎所有涉及分布式优化、资源分配和机器学习算法收敛性分析的文献都会引用它作为理论基础 [13, 14, 15]。掌握其核心内容,意味着拥有了分析和解决许多边缘智能中优化问题的通用语言和工具。
- 概率论与统计学 (Probability Theory & Statistics):
* 学习目标: 建立从概率空间、随机变量到统计推断的完整知识体系,理解参数估计、假设检验、置信区间等核心概念。
* 核心文献: Casella, G., & Berger, R. L. (2002). Statistical Inference. Duxbury Press [16, 17, 18].
* 功能角色: 理论体系构建。该书是统计学的经典教材,为理解和应用贝叶斯方法、评估模型泛化能力提供了严格的理论框架 [16, 17]。它是连接数学基础与机器学习应用的桥梁。
边缘智能路径:
- 入门概念与架构:
* 学习目标: 理解边缘智能的定义、云-边-端三层架构、以及其在应对延迟、带宽、隐私等挑战时的核心价值。
* 核心文献: A survey on Edge Intelligence [4], An Overview of Edge AI [5].
* 功能角色: 宏观认知建立。这两篇综述文章为初学者提供了Edge Intelligence领域的全景视图,明确了其定义、架构、关键特征(如安全、可靠、透明、可持续)以及面临的主要挑战 [4, 5]。它们帮助学习者建立起对该领域的整体认识,理解为何需要Edge AI以及其主要的技术方向。
大语言模型路径:
- 入门概念与协同范式:
* 学习目标: 了解大语言模型的基本能力,以及为什么直接在资源受限的边缘设备上部署存在巨大挑战,并初步认识大小语言模型协同工作的基本模式。
* 核心文献: A Survey of Collaborative Inference between Edge SLMs and Cloud-based LLMs [26].
* 功能角色: 问题定义与范式引入。这篇综述精炼地阐述了在边缘环境中部署LLM所面临的算力鸿沟问题 [3],并系统性地介绍了SLM-LLM协同推理的多种范式,为后续深入学习具体的解决方案奠定了基础 [26]。
第二阶段:核心技术栈与系统实现
进入第二阶段后,学习重点转向具体的核心技术。学习者需要深入理解如何通过模型压缩、协同推理与学习等手段,在资源受限的环境下实现高效的AI应用。同时,开始接触将这些技术付诸实践的系统级优化方法。
数学基础路径:
- 概率与统计的进阶应用:
* 学习目标: 掌握PAC-Bayes理论的基本思想及其在分析学习算法泛化性能方面的独特优势;理解贝叶斯推断框架,特别是变分推断的应用场景。
* 核心文献:
* PAC-Bayes theory introduction: A primer on PAC-Bayesian learning [32].
* PAC-Bayes in model compression: Model Phase Transitions [2].
* Bayesian methods: Pattern Recognition and Machine Learning by Bishop [25].
* Variational Inference: Variational Inference for Uncertainty Quantification [48].
* 功能角色: 高级理论工具。PAC-Bayes理论为分析压缩后模型的鲁棒性提供了有力的数学武器 [2, 32]。而贝叶斯框架则为量化模型不确定性(Uncertainty Quantification)提供了核心理论支持,这对于提升边缘AI系统的可靠性至关重要 [43, 44]。
边缘智能路径:
- 模型适应技术 (Model Adaptation Techniques):
* 学习目标: 全面掌握模型压缩的各种技术,包括量化、剪枝、知识蒸馏和低秩分解,并理解其原理、优缺点及典型代表工作。
* 核心文献: Efficient Inference for Edge Large Language Models: A Survey [72], System-Aware Optimization for Machine Learning at Scale [3].
* 功能角色: 核心技术栈构建。这两篇文献构成了模型压缩技术的完整知识体系 [3, 72]。[3] 提供了一个关于LLM在边缘高效推理的全面生命周期框架,涵盖了从离线压缩到在线调度的所有 Offline pre-deployment techniques。[72] 则是一篇专门针对Edge LLM的综述,提供了更聚焦的视角。
- 协同推理与学习 (Collaborative Inference & Learning):
* 学习目标: 深入理解联邦学习(FL)的工作机制及其在保护数据隐私和处理非独立同分布数据方面的核心作用;学习持续学习(Continual Learning)的基本思想,以应对边缘设备需要不断演进的需求。
* 核心文献:
* Federated Learning overview: Federated Learning: Challenges, Methods, and Future Directions [6], Agentic Federated Learning [62].
* Continual Learning overview: A Review of Continual Learning in Edge AI [27].
* 功能角色: 协作机制深化。[6] 和 [62] 详细介绍了联邦学习作为一种去中心化的隐私保护学习范式,如何成为Edge AI的关键使能技术 [6, 62]。[27] 则指出了传统批量训练范式的局限性,并强调了持续学习在边缘部署中的必要性,为后续学习联邦持续学习(FCL)打下基础 [27]。
- 系统感知优化 (System-Aware Optimization):
* 学习目标: 学习如何将硬件特性、网络状态等系统因素纳入考量,设计出真正高效的边缘智能系统。
* 核心文献:
* DNN Partitioning: DNN Partitioning for Cooperative Inference [30].
* Inference Scheduling: Adaptive GNN Co-Inference with System-Aware Scheduling [59].
* 功能角色: 实践与工程导向。[30] 提出了基于粒度的DNN分区分类法,为设计加速策略提供了洞察 [30]。[59] 中提出的自适应调度方法,则展示了如何通过系统级抽象和预测来实现复杂多设备环境下的性能感知 [59]。这些工作代表了从纯算法向软硬协同优化的迈进。
大语言模型路径:
- LLM边缘部署技术与架构:
* 学习目标: 聚焦于LLM特有的优化技术,深入理解大小模型协同的具体系统设计与实现细节。
* 核心文献:
* Edge LLM optimization: A survey of edge efficient LLMs and techniques [72], Empirical Guidelines for Deploying LLMs onto Resource-Constrained Devices [70].
* Collaborative systems: Floe: Federated Specialization for Real-Time LLM-SLM Inference [110], Jupiter: Fast and Resource-Efficient Collaborative Inference [84].
* 功能角色: 智能引擎适配。[72] 和 [70] 为LLM在边缘的落地提供了宏观指导和实证经验 [70, 72]。[110] 和 [84] 则通过具体的系统设计案例(Floe和Jupiter),展示了如何将协同推理范式具体化为可运行的系统,实现了低延迟和资源效率的平衡 [84, 110]。
第三阶段:前沿融合与未来挑战
第三阶段面向最前沿的研究方向,旨在引导学习者探索各技术分支间的交叉融合,并识别当前领域尚未解决的重大挑战。此阶段的学习要求具备扎实的前两阶段知识储备,能够批判性地思考并提出创新性问题。
数学基础路径:
- 高级理论与前沿应用:
* 学习目标: 了解Rademacher复杂度等更精细的泛化界分析工具,并探索其在特定领域(如图神经网络)的应用潜力。
* 核心文献: Learning Latent Graph Geometry via Fixed-Point Schrödinger... [10].
* 功能角色: 前沿理论拓展。该文献展示了如何将复杂的统计学习理论工具应用于新兴的图学习领域,体现了理论研究的深度和广度,可以启发学习者思考更普适的泛化分析框架 [10]。
边缘智能路径:
- 模型相变与鲁棒压缩:
* 学习目标: 理解模型压缩并非简单的降维过程,而是一个存在临界点的非线性过程,并学习如何设计更具鲁棒性的压缩策略。
* 核心文献: Model Phase Transitions [2].
* 功能角色: 颠覆性洞见。这篇论文提出了“模型相变”的新范式,揭示了当压缩超过临界阈值(PTP)时,模型性能会发生灾难性崩溃的现象 [2]。这彻底改变了人们对模型压缩的认知,强调了“临界感知压缩”的重要性,为设计下一代压缩算法提供了全新的视角 [2]。
- LoRA在联邦学习中的应用:
* 学习目标: 掌握低秩适配(Low-Rank Adaptation)作为一种高效的LLM微调技术,并理解其如何与联邦学习框架结合,以解决边缘端个性化LLM的问题。
* 核心文献:
* FDLoRA: Personalized Federated Learning of Large Language... [40].
* Dec-LoRA: Decentralized Low-Rank Fine-Tuning of Large Language Models [107].
* ESFL: Efficient Split Federated Learning over Resource-Constrained... [98].
* 功能角色: 前沿技术融合。这些论文代表了LLM高效微调技术与分布式学习框架的完美结合 [40, 107]。它们展示了如何利用LoRA等技术显著降低联邦学习中模型上传/下载的通信开销和计算负担,从而使得在资源受限的边缘设备上进行LLM的个性化成为可能 [40, 98]。
- 系统级创新与实践:
* 学习目标: 学习如何将先进的理论研究成果转化为高效的、可在真实世界部署的系统。
* 核心文献: FlexNN: Efficient and Adaptive DNN Inference on Memory-Constrained Edge Devices [28], Re-thinking computation offload for efficient inference on IoT devices [90].
* 功能角色: 从理论到实践的转化。[28] 中的FlexNN系统展示了如何通过动态自适应的推理方式,在内存受限的设备上实现高效的DNN推理 [28]。[90] 则重新思考了计算卸载的策略,提出了双步剪枝等方法来提升设备-边缘协同推理的效率 [90]。这些工作是理论与工程实践紧密结合的典范。
大语言模型路径:
- LLM不确定性量化 (Uncertainty Quantification):
* 学习目标: 了解如何为LLM的输出提供可信的概率度量,这对于安全攸关的边缘应用场景至关重要。
* 核心文献:
* ABC-based approach: Uncertainty Quantification of Large Language Models using... [43], Uncertainty Quantification of Large Language Models... [49].
* Textual Bayes framework: Textual Bayes: Quantifying Uncertainty in LLM-Based Systems [44], Quantifying Prompt Uncertainty in LLM-Based Systems [45].
* 功能角色: 前沿研究方向。这些前沿研究致力于解决LLM“黑箱”特性带来的信任问题 [43, 44]。它们尝试将贝叶斯方法论扩展到LLM的文本参数和输出上,为其决策提供不确定性度量,极大地增强了LLM在边缘智能等高风险场景中的可用性和安全性 [44, 47]。
- 边缘上的持续学习 (Continual Learning on the Edge):
* 学习目标: 探索如何让部署在边缘的LLM能够持续学习新知识,同时避免遗忘旧知识,以适应动态变化的环境。
* 核心文献: Federated Continual Learning for Edge-AI: A Comprehensive Survey [82], Decentralized Dynamic Cooperation of Personalized Models... [63].
* 功能角色: 综合应用与挑战应对。[82] 是一篇关于FCL for Edge-AI的全面综述,系统性地梳理了该领域的最新进展和挑战 [82]。[63] 则专注于解决联邦持续学习中时空两个维度上的灾难性遗忘问题 [63]。这些研究将前述的持续学习、联邦学习和LLM能力结合起来,指向了构建真正意义上能够自我演进的边缘智能系统。
知识网络整合与总结
本报告构建的学习路线图,将边缘智能、大语言模型和数学基础三条路径有机地串联起来,形成一个相互支撑、层层递进的知识网络。其核心逻辑在于,数学基础为上层技术和应用提供了坚实的理论保障,而边缘智能与大语言模型则共同定义了在资源受限环境中实现先进人工智能能力的系统性挑战与解决方案。
底层理论支撑: 凸优化为分布式学习算法(如联邦学习)的收敛性分析和资源分配问题提供了严谨的数学工具 [13, 15]。概率论与统计学,特别是PAC-Bayes理论和贝叶斯推断,则为评估模型泛化能力、量化不确定性提供了不可或缺的框架 [32, 43, 44]。例如,模型相变现象的研究就深刻运用了统计物理的思想来解释LLM压缩的非线性行为 [2]。
中间层技术核心: 这一层是解决问题的关键枢纽。模型压缩技术(量化、剪枝等)直接应对“算力鸿沟”,缩小了大型模型的尺寸,使其得以在边缘部署 [3, 72]。协同推理与学习范式(如联邦学习、持续学习)则解决了单个设备无法完成任务、数据分布在不同节点且持续演化等问题 [6, 27]。系统感知优化方法进一步将硬件、网络等现实约束融入设计,确保了技术方案的可行性和高效性 [28, 59]。
顶层智能赋能: 大语言模型作为当前最先进的AI能力代表,是边缘智能系统实现复杂语义理解、自然语言交互和自主决策的核心引擎。然而,将其能力有效迁移至边缘环境,催生了一系列独特的挑战与解决方案,如大小模型协同架构(Floe, Jupiter)、面向LLM的高效微调技术(LoRA在FL中的应用)以及LLM不确定性量化等前沿研究 [26, 40, 43]。
综上所述,这条学习路径不仅是知识的罗列,更是一个精心设计的认知旅程。它遵循着“基础理论 → 核心技术 → 前沿创新”的逻辑顺序,引导学习者从掌握基本原理出发,逐步深入到解决实际问题的核心技术栈,最终抵达探索未知领域的前沿阵地。通过系统性地学习和实践这条路径,学习者将能够全面把握“边缘智能与大语言模型协同”这一充满机遇与挑战的交叉学科领域。