1 min read 112 words Updated Apr 29, 2026 Created May 03, 2026

Learning Private Neural Language Modeling with Attentive Aggregation.pdf

问题背景

  • 传统中心化方法需收集大量用户数据,存在隐私风险
  • 联邦学习通过分布式训练保护用户隐私
  • 现有FedAvg方法简单平均客户端模型,忽略各客户端贡献差异
  • 服务端聚合缺乏优化,全局模型泛化能力有限

其核心就是基于相关度的加权平均来代替平均聚合,其中相关度是由参数偏移程度决定的:

$$\begin{aligned} s_k^l &= \| \omega^l - \omega^l_k \|_p \\ \alpha_k^l &= {\rm softmax}(s_k^l) \\ \theta_{t + 1} &= \theta_t - \epsilon \sum \alpha_k (\theta_t - \theta^k_{t}) \end{aligned} $$

值得注意的是,$w^l$ 表示 LM 第 $l$ 层的参数,$\omega_k^l$ 是 SM 的,$\alpha_k^l$ 是对每一层的原始相似度加权重,对于每个模型的每一层都有一个权重。

这个与 FedProx 还是很不一样的。

论文中还有一些其他的细节:

  1. 差分隐私的使用,对于聚合的 $\theta_{t}^k$ 加入了 $N(0, \sigma^2)$ 的噪声
  2. 引入了困惑度1的阈值来判断收敛
  3. 模型采用的是 GRU & LSTM,数据采用 Penn Treebank、WikiText-2 和 Reddit Comments 三个英文语料库。

  1. 在原文 Section IV.C 中,困惑度定义为分布熵 $H(p)$ 的指数形式:

    $$PPL(x) = 2^{H(p)} = 2^{-\sum_x p(x) \log \frac{1}{p(x)}} $$

    其中 $p(x)$ 为模型预测的概率分布。该指标用于 Word-level 语言建模任务,实验中作为测试集性能的统一度量(Table II–IV),FedAtt 在多数设置下以更低的 PPL 优于 FedAvg 与 FedSGD。
    

    其值越小,熵越大,代表对于下一个的确信度就越高;如果是平均猜测,那么,熵最小,其值最大,预测稳定性最弱。 ↩︎