就是把 MoE 的门控和门控后的 Experts 放在了不同的设备进行。
- Token 级别的 Latency
$$t^i_{j,q} = t_{upload} + t_{compute} + t_{download} $$
具体的计算方式见论文。
延迟和推理分数的平衡是文章的重点,其定义了 $WLR$(Weight-Latency Ratio),对于 MoE Gate 选择出来的 Top-K,可以计算其 WLR。定义一个超参数 $\theta$ 用于控制,如果:
$$\frac {\min WLR}{\min WLR + \max WLR} \le \theta $$
那么丢弃 WLR 最小的直到满足条件。
然后将剩下的 Softmax 后聚合即可。
- 断开连接的鲁棒性真的被解决了吗?
- 我认为没有,但是可以假设在每一轮往返的短暂延迟中,连接是稳定的。
- 这样就从长时间稳定的问题,变成较短时间内单次稳定的问题了。
- 但实际上,这里放在多个设备上,解决的是空间并行冗余(spatial distribution),避免的单个设备上多专家失效导致并行崩溃的情况。
- 如果突然断联,等价于 MoE 权重设为 0,直接忽略即可。
- WLR 为什么用"除法"而非"加权求和"?
- 我认为是因为延迟和 Gateway 评分没有统一的量纲,并且延迟的波动很大。所以采用相对的除法而不是绝对的加权求和,对于弃用和使用更加稳定,不容易出现突然出现某一个时间所有设备延迟增加,导致延迟对 WLR 的贡献统一占比变大,而削弱了 gateway 评分的影响。
- 需要注意,这里实际上有一个边界效应(注意 $\frac 1 x$ 的图像),对于低延迟的连接偏好程度会更高!所以当全局劣化的时候,反而延迟就没有那么重要了,退化成完全由 Gateway 的评分确定所选的 experts
- "训练无关"的调整 vs. 训练时耦合,方法论代价是什么?
- 这种训练无关的调整,可以很轻易的扩展到任意 MoE 模型上
- 但是代价就是性能肯定不如训练和推理耦合,在最优性下很难保证。
- 解耦策略可能确实会导致门控网络输出的权重分布与 WLR 剪枝后的实际专家集合长期不匹配,根据 EdgeMoE 中的观察,
给定前若干层的激活专家,当前层某专家被激活的条件概率高度集中,如果说某个设备延迟较高,那么这个高度集中的 MoE 确实可能长期被忽略,导致专家集合不匹配- WDMoE 的 WLR 剪枝是逐层独立进行的(Algorithm 1 针对每个 block 的每个 token 单独执行)。如果 MoE 存在强路径依赖,第 i 层剪枝掉某个专家,可能导致第 i+1 层原本应该高激活的专家也变得 irrelevant,因为门控网络的输入分布已经被改变了。这种误差会逐层累积。
- 虽然单 token 的多专家聚合提供了局部冗余,但 WDMoE 的逐层独立剪枝可能在全局层面引入系统性偏差。假设某设备因长期信道劣势(如位于小区边缘)被 WLR 持续压低,该设备上的专家在深层网络中会被系统性忽略。MoE 的门控网络在预训练时学习的是全专家集合的协同分布,而 WDMoE 在推理时将其强行约束到一个通信可达的子集。这种约束是否会导致深层特征的协方差偏移?
- 常识推理(PIQA、BoolQ):对专家多样性敏感度较低,激进剪枝(θ=0.3 )仍可用;
- 代码生成(HumanEval) 与 数学推理(GSM-8K):可能需要特定领域的专家组合,激进剪枝更容易触发"信息崩溃"。
- 如果路径依赖真的如此强烈,WDMoE 的逐层独立剪枝是否本质上是在破坏 MoE 的预训练知识拓扑?有没有可能设计一种跨层联合专家选择(cross-layer joint selection),在 BS 侧一次性为整条 token 路径规划专家序列,而非每层单独决策?这种联合优化的计算复杂度与收益是否值得?
- 多专家聚合(非 Top-1) 提供了表示层面的冗余,适当 θ 可以调节信息崩溃的阈值;
- 路径依赖是概率性的,无法在 token 到达前完全确定其激活路径;
- EdgeMoE 的同路径同设备优化在多专家聚合场景下收益有限,因为聚合过程本身已经要求跨设备通信。
- 如果稳定性可以保证,那么可以类似 EdgeMoE 的思路,将高概率的路径组合放在同一个设备,减少数据传输(但实际上会经过一个聚合过程,所以可能这个思路在多 experts 聚合的条件下不是很可取,除非使用 Switch Transformer 这种不进行聚合,只选 Top-1 的情况);如果稳定性不够,那么也可以通过激活分布,将同一路径下的专家按照概率放在相同设备上,这样就减少了路径依赖前提下,一个掉线,切换路径后还是路由到同一个设备上的问题。不过这个基于单个设备放置多个 experts 的情况,如果是单个 expert,那么这个思路就失效了。不过我感觉这个优化收益不高,不值得。
- 对 MoE 输出做 WLR 剪枝的扰动分析,核心难点在于:剪枝不是权重的连续扰动,而是离散地置零 + 重归一化。
- 分析可能需要等我基础好一点才能进行。