1. 核心思想
传统对抗防御(如对抗训练)只能提供经验鲁棒性。PixelDP 的核心洞察是:如果模型对输入的随机扰动满足 $(\epsilon, \delta)$-DP,那么根据 DP 的后处理免疫性和稳定性边界,模型输出在输入发生 $\ell_p$-范数有界扰动时的变化可以被严格限定。这转化为一个可证明的鲁棒性半径:只要对抗扰动 $\|\alpha\|_p \le L$,模型预测不变的概率就有下界保证。
2. 机制设计
- 噪声层:在神经网络的前端(或任意中间层,如 SplitFed 中的 smashed data 层)注入 Laplace 或 Gaussian 噪声。
- 敏感度计算:定义函数敏感度 $\Delta_{p,q} = \max_{i \ne j} \frac{\|A_{k,i} - A_{k,j}\|_q}{\|x_i - x_k\|_p}$,即输入变化导致的最大输出变化。
- 噪声校准:按 $\text{Lap}(\Delta_{p,q}/\epsilon')$ 或对应 Gaussian 机制添加噪声,使该层输出满足 $(\epsilon', 0)$ 或 $(\epsilon, \delta)$-DP。
3. 鲁棒性认证
基于 DP 的稳定性引理:若随机化函数 $M$ 满足 $(\epsilon, \delta)$-DP 且输出有界 $M \in [0,b]$,则对任意 $\alpha \in B_p(L)$ 有:
$$这意味着在输入邻域内,模型输出的期望变化被指数界控制,从而可推导出**分类决策在半径 $L$ 内不变**的认证。 **4. 在 SplitFed 中的角色** SplitFed 将 PixelDP 噪声层置于客户端子模型的切分层输出处,对上传至 Main Server 的 smashed data 加噪。这实现了双重目标: - **隐私**:即使服务器好奇,也无法从带噪激活值精确反推原始数据或客户端模型参数。 - **鲁棒性**:为边缘侧模型提供对抗样本攻击的认证防御,防止恶意输入通过 smashed data 毒害服务器端模型。 --- **相关延伸**: - **DP-SGD** [Abadi et al., CCS 2016]:PixelDP 的互补技术,作用于梯度而非输入/中间特征;SplitFed 在 Fed Server 聚合前对客户端梯度执行 DP-SGD 式的裁剪与加噪。 - **Randomized Smoothing** [Cohen et al., ICML 2019]:与 PixelDP 思想相近但独立发展的认证鲁棒性方法,通过 Gaussian 平滑获得 $\ell_2$ 鲁棒半径,PixelDP 则直接利用 DP 框架兼容 $\ell_p$ 范数。$$