[Fairness] Grace：Graph self-distillation and completion to mitigate degree-related biases

论文来自：

Xu H, Xiang L, Huang F, et al. Grace: Graph self-distillation and completion to mitigate degree-related biases[C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2023: 2813-2824.

摘要

真实世界图普遍呈现长尾度分布（long-tail degree distribution），大量节点为低度节点（low-degree nodes）。尽管 GNN 在节点分类任务上表现出色，但其性能严重依赖丰富连接，对低度节点表示不足，导致显著的度相关偏差（degree-related bias）。

本文提出 Grace，通过以下两大机制缓解该问题：

自蒸馏（Graph Self-Distillation）：增强低度节点的自表示能力（self-representation）
图补全（Graph Completion）：提升低度节点的邻域同质性比率（Neighborhood Homophily Ratio, NHR）

结合 标签传播（Label Propagation） 防止错误传播。实验表明，Grace 在平衡整体性能与低度节点准确率方面显著优于现有方法。

问题背景与动机

图1：真实图的度分布与性能偏差

核心挑战

挑战	描述
① 自表示不足	GNN 过度依赖邻域聚合，低度节点失去邻域后性能崩塌至 MLP 水平
② 低 NHR	低度节点邻居中同类节点比例极低，违反 GNN 的同质性假设

整体框架

流程

分解 GNN 将 GNN 分成 ST（自变换，MLP） 和 NT（邻域变换） 两部分。
自蒸馏训练
- 教师模型：完整 GNN（ST + NT）
- 学生模型：仅 ST（退化为 MLP）
- 用教师软标签 + 真实标签监督学生，优化 ST 学习“邻域平移”。
图补全（Graph Completion）
- 对低度节点 $ v $，用自蒸馏输出 $ p(v) $ 预测同类邻居
- 建模为多标签任务：正样本=当前邻居，负样本=低相似度节点
- 选前 $ k $ 个高概率同类节点，添加新边，构建新图 $ G’ $。
训练 Grace-GNN 在补全后的图 $ G’ $ 上，用增强的 ST + NT 训练最终 GNN。
推理阶段：标签传播
- 对低度节点，用 $ p(v) $ 选前 $ k $ 个邻居
- 构建有向边（高置信 → 低度）
- 单跳传播： $\hat{p}(v) = (1-\lambda) p(v) + \lambda \sum_{u \to v} p(u)$
- 输出最终预测。

核心特点：自蒸馏增强自表示 + 精准补全提升 NHR + 单跳传播防误传，实现低度节点性能大幅提升，整体无损。

核心模块

自蒸馏（Graph Self-Distillation）

思路

将 GNN 分解为两部分：

ST（Self-Transformation）：节点自身特征变换（MLP）
NT（Neighborhood Transformation）：邻居信息聚合

目标：将图依赖性从 NT 迁移到 ST，使 ST 学习到“邻域平移”

实现

教师模型：完整 GNN（含 ST + NT）
学生模型：仅 ST 部分（退化为 MLP）
训练流程：
- 输入节点特征 → 教师模型 → 软标签 $ p_t(v) $
- 输入相同特征 → 学生模型 → 输出 $ p_s(v) $
- 损失： $\mathcal{L}_{KD} = \sum_v \left[ \alpha \cdot KL(p_t(v) | p_s(v)) + (1-\alpha) \cdot CE(p_s(v), y_v) \right]$

收敛后，ST 隐式编码了邻域信息，增强低度节点自表示

图补全（Graph Completion）

目标

为低度节点预测同类潜在邻居，提升 NHR

建模为多标签预测任务

正样本：当前邻居 $ \mathcal{N}(v) $
候选负样本：其他节点
预测：使用自蒸馏输出的软标签 $ p(v) $
选择策略：
1. 取 $ p(v) $ 中前 2 大概率类别
2. 归一化得到权重
3. 负样本：与 $ v $ 余弦相似度 < $ \eta $
最终标签： $y_v^{\text{multi}} = \text{softmax}\left( \sum_{u \in \mathcal{N}(v)} p(u) \right)$

仅连接最可能同类的节点，避免噪声

标签传播（Label Propagation）

作用

防止图补全中的误分类传播

预测阶段流程

根据 $ p(v) $ 选前 $ k $ 个潜在邻居
构建有向边：$ u \to v $（$ u $ 是高置信邻居）
单跳传播： $\hat{p}(v) = (1 - \lambda) p(v) + \lambda \sum_{u \in \mathcal{N}’(v)} p(u)$ 其中 $ \mathcal{N}’(v) $ 为新图中的邻居

信息单向流动：从可靠节点 → 低度节点

符号表

符号	含义
$ G = (V, E, X, Y) $	原始图
$ \deg(v) $	节点 $ v $ 的度数
$ \text{NHR}(v) $	邻域同质性比率 = 同类邻居数 / 总邻居数
$ \text{ST}(\cdot), \text{NT}(\cdot) $	自变换、邻域变换
$ p_t(v), p_s(v) $	教师/学生模型输出概率
$ \mathcal{L}_{KD} $	知识蒸馏损失
$ \eta $	负样本相似度阈值
$ k $	预测邻居数量
$ G’ $	补全后新图
$ \mathcal{N}’(v) $	新图中 $ v $ 的邻居集