WDMoE • Jeefy's Blog

1 min read 182 words Updated May 09, 2026 Created Jun 17, 2026

就是把 MoE 的门控和门控后的 Experts 放在了不同的设备进行。

Token 级别的 Latency

$$t^i_{j,q} = t_{upload} + t_{compute} + t_{download} $$

具体的计算方式见论文。

延迟和推理分数的平衡是文章的重点，其定义了 $WLR$（Weight-Latency Ratio），对于 MoE Gate 选择出来的 Top-K，可以计算其 WLR。定义一个超参数 $\theta$ 用于控制，如果：

$$\frac {\min WLR}{\min WLR + \max WLR} \le \theta $$

那么丢弃 WLR 最小的直到满足条件。

然后将剩下的 Softmax 后聚合即可。

断开连接的鲁棒性真的被解决了吗？
- 我认为没有，但是可以假设在每一轮往返的短暂延迟中，连接是稳定的。
- 这样就从长时间稳定的问题，变成较短时间内单次稳定的问题了。
- 但实际上，这里放在多个设备上，解决的是空间并行冗余（spatial distribution），避免的单个设备上多专家失效导致并行崩溃的情况。
- 如果突然断联，等价于 MoE 权重设为 0，直接忽略即可。
WLR 为什么用"除法"而非"加权求和"？
- 我认为是因为延迟和 Gateway 评分没有统一的量纲，并且延迟的波动很大。所以采用相对的除法而不是绝对的加权求和，对于弃用和使用更加稳定，不容易出现突然出现某一个时间所有设备延迟增加，导致延迟对 WLR 的贡献统一占比变大，而削弱了 gateway 评分的影响。
- 需要注意，这里实际上有一个边界效应（注意 $\frac 1 x$ 的图像），对于低延迟的连接偏好程度会更高！所以当全局劣化的时候，反而延迟就没有那么重要了，退化成完全由 Gateway 的评分确定所选的 experts
"训练无关"的调整 vs. 训练时耦合，方法论代价是什么？
- 这种训练无关的调整，可以很轻易的扩展到任意 MoE 模型上
- 但是代价就是性能肯定不如训练和推理耦合，在最优性下很难保证。
- 解耦策略可能确实会导致门控网络输出的权重分布与 WLR 剪枝后的实际专家集合长期不匹配，根据 EdgeMoE 中的观察，给定前若干层的激活专家，当前层某专家被激活的条件概率高度集中，如果说某个设备延迟较高，那么这个高度集中的 MoE 确实可能长期被忽略，导致专家集合不匹配
  - WDMoE 的 WLR 剪枝是逐层独立进行的（Algorithm 1 针对每个 block 的每个 token 单独执行）。如果 MoE 存在强路径依赖，第 i 层剪枝掉某个专家，可能导致第 i+1 层原本应该高激活的专家也变得 irrelevant，因为门控网络的输入分布已经被改变了。这种误差会逐层累积。
  - 虽然单 token 的多专家聚合提供了局部冗余，但 WDMoE 的逐层独立剪枝可能在全局层面引入系统性偏差。假设某设备因长期信道劣势（如位于小区边缘）被 WLR 持续压低，该设备上的专家在深层网络中会被系统性忽略。MoE 的门控网络在预训练时学习的是全专家集合的协同分布，而 WDMoE 在推理时将其强行约束到一个通信可达的子集。这种约束是否会导致深层特征的协方差偏移？
    - 常识推理（PIQA、BoolQ）：对专家多样性敏感度较低，激进剪枝（θ=0.3 ）仍可用；
    - 代码生成（HumanEval） 与 数学推理（GSM-8K）：可能需要特定领域的专家组合，激进剪枝更容易触发"信息崩溃"。
- 如果路径依赖真的如此强烈，WDMoE 的逐层独立剪枝是否本质上是在破坏 MoE 的预训练知识拓扑？有没有可能设计一种跨层联合专家选择（cross-layer joint selection），在 BS 侧一次性为整条 token 路径规划专家序列，而非每层单独决策？这种联合优化的计算复杂度与收益是否值得？
  - 多专家聚合（非 Top-1） 提供了表示层面的冗余，适当 θ 可以调节信息崩溃的阈值；
  - 路径依赖是概率性的，无法在 token 到达前完全确定其激活路径；
  - EdgeMoE 的同路径同设备优化在多专家聚合场景下收益有限，因为聚合过程本身已经要求跨设备通信。
  - 如果稳定性可以保证，那么可以类似 EdgeMoE 的思路，将高概率的路径组合放在同一个设备，减少数据传输（但实际上会经过一个聚合过程，所以可能这个思路在多 experts 聚合的条件下不是很可取，除非使用 Switch Transformer 这种不进行聚合，只选 Top-1 的情况）；如果稳定性不够，那么也可以通过激活分布，将同一路径下的专家按照概率放在相同设备上，这样就减少了路径依赖前提下，一个掉线，切换路径后还是路由到同一个设备上的问题。不过这个基于单个设备放置多个 experts 的情况，如果是单个 expert，那么这个思路就失效了。不过我感觉这个优化收益不高，不值得。
    - 对 MoE 输出做 WLR 剪枝的扰动分析，核心难点在于：剪枝不是权重的连续扰动，而是离散地置零 + 重归一化。
    - 分析可能需要等我基础好一点才能进行。