[Privacy] LPGNN：Locally private graph neural networks

论文来自于：

Sajadmanesh S, Gatica-Perez D. Locally private graph neural networks[C]//Proceedings of the 2021 ACM SIGSAC conference on computer and communications security. 2021: 2130-2145.

摘要

图神经网络（GNN）在学习节点表示以完成多种图推理任务时表现出色。然而，当节点代表个人或涉及敏感信息的人类相关变量时，基于图数据的学习可能引发隐私问题。尽管已有大量针对非关系数据的隐私保护深度学习技术，但针对图上深度学习算法的隐私问题研究较少。

本文研究节点数据隐私问题：图节点拥有潜在敏感数据（特征向量与标签）保持私有，但可被中心服务器用于训练GNN。提出一种基于局部差分隐私（LDP）的隐私保护GNN训练算法，具备形式化的隐私保证。

核心贡献

多比特机制（Multi-bit Mechanism）：LDP编码器 + 无偏整流器，实现高效通信下特征扰动与收集。
KProp层：基于多跳聚合的简单图卷积层，增强去噪能力，提升首层卷积估计精度。
Drop鲁棒训练框架：利用KProp对噪声标签进行去噪，提升泛化性能。
理论分析：隐私保证、误差界。
实验验证：在真实数据集上实现良好的准确率-隐私权衡。

问题定义与背景

图结构

图 $ G = (V, E, X, Y) $
- $ V = V_L \cup V_U $：有标签节点 + 无标签节点
- $ X \in \mathbb{R}^{|V| \times d} $：特征矩阵（私有）
- $ Y \in {0,1}^{|V| \times c} $：标签矩阵（私有）
服务器拥有：$ V, E $
节点私有：$ X, Y $

目标

在不泄露原始 $ X, Y $ 的前提下，训练GNN。

图神经网络（GNN）基础

每层嵌入更新：

$$ h^l_{N(v)} = \text{Aggregate}^l \left( \{ h^{l-1}_u \mid \forall u \in \mathcal{N}(v) \} \right) $$$$ h^l_v = \text{Update}^l \left( h^l_{N(v)} \right) $$

初始：$ h^0_v = x_v $
最后一层输出 $ c $ 维向量 + softmax 预测标签

局部差分隐私（LDP）

定义 2.1：机制 $ M $ 满足 $ \epsilon $-LDP，若对任意输入 $ x, x’ $ 和输出 $ y $：

$$ \Pr[M(x)=y] \leq e^\epsilon \Pr[M(x')=y] $$

$ \epsilon $：隐私预算（越小越强）
实现方式：本地扰动 → 聚合去噪

整体框架

流程

节点本地扰动 每个节点用 Multi-bit Encoder 对特征进行局部扰动，生成编码向量；有标签节点用 广义随机响应 扰动标签。一次性上传至服务器。
服务器去偏估计 服务器用 Multi-bit Rectifier 对所有扰动向量进行无偏校正，估计近似首层卷积输入。
插入 KProp 去噪 在 GNN 前插入 KProp 多跳聚合层，通过 K 步线性传播平均化噪声，增强低度节点表示。
GNN 训练（Drop 鲁棒框架）
- 前向传播得到预测概率
- 用 KProp 聚合预测概率，生成“净化标签”
- 结合扰动标签 + 净化标签计算损失
- 反向传播更新模型
迭代至收敛 每轮重复扰动→上传→去偏→训练，直至模型收敛。
推理训练好的 GNN 直接用于新节点分类（无需再扰动）。

核心特点：一次通信 + 聚合去噪 + 标签净化，实现 隐私保护下的高精度 GNN 训练。

核心组件

Multi-bit Encoder（节点端）

输入：节点 $ v $ 的原始特征 $ x_v \in \mathbb{R}^d $
输出：扰动编码向量
目标：高维特征下高效通信 + LDP保证
方法：扩展1-bit机制至多维，逐维度采样并翻转

每个节点仅需一次通信发送扰动特征

Multi-bit Rectifier（服务器端）

输入：所有节点的扰动编码
输出：无偏估计的聚合特征
作用：校正统计偏差，近似首层图卷积
关键：利用线性聚合作为天然去噪机制

聚合平均化注入的差分隐私噪声

KProp（多跳聚合层）

$$ h_v^{(k)} = (1 - \alpha) h_v^{(k-1)} + \alpha \cdot \text{Aggregate}(h_u^{(k-1)}, u \in \mathcal{N}(v)) $$

输入：扰动后特征
操作：迭代K次线性聚合，扩展有效邻域至K跳
作用：
1. 增强去噪（噪声 ~ 1/√聚合规模）
2. 提升低度节点估计精度
3. 可插入任意GNN前作为预处理层

特别适用于幂律分布图（多数节点度数低）

标签扰动（Randomized Response）

正确标签保留概率：$ p = \frac{e^\epsilon}{e^\epsilon + c - 1} $

其他类别随机翻转为：$ q = \frac{1}{e^\epsilon + c - 1} $

Drop：鲁棒训练框架

挑战

噪声标签 → 过拟合 → 泛化差
无干净验证集 → 难以调参

解决方案

利用KProp对标签预测概率进行多跳聚合
估计每个节点的邻域标签频率
选择频率最高者作为“净化标签”
用于损失计算或早停判断

不依赖任何干净数据（特征/标签）

符号表（文中主要符号）

符号	含义
$ G = (V, E, X, Y) $	图结构
$ V_L, V_U $	有/无标签节点集
$ x_v \in \mathbb{R}^d $	节点 $ v $ 的特征向量
$ y_v \in {0,1}^c $	节点 $ v $ 的one-hot标签
$ \mathcal{N}(v) $	节点 $ v $ 的邻居集（可含自身）
$ h^l_v $	第 $ l $ 层节点 $ v $ 的嵌入
$ \epsilon $	隐私预算
$ K $	KProp 步数
$ M(\cdot) $	LDP扰动机制
$ \text{MB-Encoder} $	多比特编码器
$ \text{MB-Rectifier} $	多比特整流器