Do Transformers Really Perform Bad for Graph Representation

Motivation

原有将 transformer 应用于图的效果并不好
节点重要性，图结构性信息往往在目前的工作中被忽略

Thinking

为什么 GNN 效果不好
- GNN 网络不能做的到很深，GNN 的一层本质上是在根据邻居节点的信息融合，层数过大会导致特征的趋同，反而丢失特征信息 oversmoothing，因此导致了感受野和趋同化的冲突
- 有相关文章证明图网络无法处理部分同构图，也进而证明 GNN 的表征能力并不高
自然语言/图片是一种结构简单的图结构
- 自然语言可作为句中节点都是一进一出的有向图
#自然语言在 Transformer 中加入了 1D 的 position embedding
- 图片可以是一个只有四个方向连接的图
#图片（VIT）加入了 2D 的 position embedding
- 同时有许多工作证明位置信息对 Transformer 的性能起很大作用
  
  #因此需要加入有关图结构信息的 embedding 作为辅助信息，本文加入了 Spatial，edge 和 centrality 三种结构性信息

Method

Structural Encoding
- Centrality Encoding
  
  关注节点重要性信息对图予以理解的影响
  - 利用度的大小作为节点重要性的度量
  $h_{i}^{(0)} = x_{i} + z_{d e g^{-} (v_{i})}^{-} + z_{d e g^{+} (v_{i})}^{+}$
  
  二者分别是可学习的由入度和出度决定的嵌入，在无向图中二者合并为一个向量并由度的大小决定
- Spatial Encoding
  
  关注节点之间的空间位置关系
  - 利用最短路径的大小作为两个节点的空间位置关系度量，如果不相连则将该值设为-1，并未每个距离设置一个可学习的标量
  $A_{ij} = \frac{( h _{i} W _{Q} ) ( h _{j} W _{K} ) ^{T}}{d} + b_{ϕ (v_{i}, v_{j})}$
- Edge Encoding
  
  关注边特征的重要性
  - 注意力机制管制节点对之间的相关性，连边的特征和这种相关性有一定的表征关系
  - 对一个节点对找到一个最短传播路径，计算路径上所有边特征与一个可学习 embedding 点积的均值作为另一个偏置项
  $A_{ij} = \frac{( h _{i} W _{Q} ) ( h _{j} W _{K} ) ^{T}}{d} + b_{ϕ (v_{i}, v_{j})} + c_{ij}, where c_{ij} = \frac{1}{N} n = 1 \sum N x_{e_{n}} (w_{n}^{E})^{T}$

Details

Graphformer Layer

将归一化利用于多自注意力之前，FFN 层隐层神经元数量设置为等同于输入输出层的数量即嵌入维度大小 D

$h^{^{'} (l)} h^{(l)} = MHA (LN (h^{(l - 1)})) + h^{(l - 1)} = FFN (LN (h^{^{'} (l)})) + h^{^{'} (l)}$
Special Node
- 加入了一个与所有节点相连的初始化节点，类似[CLS]
- 最终这个节点的特征视为全图的特征向量表征
- 同时，将这个节点与其他节点的空间编码 $b_{ϕ (v_{i}, v_{j})}$ 重置为一个不同的可学习参数

‍

卷积核

为什么需要卷积操作 1、特征提取使用特定的卷积核，能够提取出图片数据特定方向的信息卷积操作即是对图像的像素点进行乘运算并将结果矩阵的所有值求和得出一个数的结果 [图片] 此处 input 即是一个 55 像素大小的图片使用一个 33 矩阵对图片最左上角 9 个像素点进行卷积运算（乘）矩阵算法1 依次从坐标 0， ..

从 transformer 追溯到 CNN

为什么要写 transformer 的文章呢？大概归于 3 个原因 1）目前我对于大模型的理解仅停留在使用层面，API、提示词、Agent 玩的很 6，无法接触到很核心的东西。长期下去可能也没啥进步 2）网上对于 transformer 讲解的文章或者视频大多很晦涩难懂，没点神经网络的基础是真的很难看懂，希望这篇文章能 ..

插件点子征集：你最需要的插件是什么？

** 帮我想个插件！你的需求可能就是下一个爆款** 近期计划开发个插件，但方向太多选择困难...所以决定把决定权交给你们！ ** 灵魂提问：** 「有什么插件是你特别想要，但翻遍集市和社区都找不到的？」可以是任何类型，只要对大多数人有用就行～理想型插件特征：谁都能用（别太冷门）简单实用（别太复杂）推荐格式（ ..

建议数据库增加仅复制结构，表右键菜单增加清空表

建议数据库增加仅复制结构下图为 Navicat 表菜单： [图片] 建议表格右键菜单增加清空表虽然有全选删除行, 但右键菜单更简单直接。 [图片] 其它刚开始用数据库的时候那三个菜单实在是有些不符合直觉, 三个都测试了下才知道第三个是正常来说的复制 [图片]

[js] 代码片段分享 - 思源关系图谱的深度支持

昨天我花了点时间使用 cursor 写了一个简单的增强本地图谱的代码片段，也给大家分享一下主要实现了两个功能：本地图谱支持深度出链也会计算权重效果代码片段关闭： [图片] [图片] 代码片段开启： [图片] [图片] 这个片段可以用来干什么一个用于快速跳转的路径地图（这个用处最大了，文档树、搜索、反链面板都 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

Do Transformers Really Perform Bad for Graph Representation

Motivation

原有将 transformer 应用于图的效果并不好

节点重要性，图结构性信息往往在目前的工作中被忽略

Thinking

为什么 GNN 效果不好

GNN 网络不能做的到很深，GNN 的一层本质上是在根据邻居节点的信息融合，层数过大会导致特征的趋同，反而丢失特征信息 oversmoothing，因此导致了感受野和趋同化的冲突

有相关文章证明图网络无法处理部分同构图，也进而证明 GNN 的表征能力并不高

自然语言/图片是一种结构简单的图结构

自然语言可作为句中节点都是一进一出的有向图

#自然语言在 Transformer 中加入了 1D 的 position embedding

图片可以是一个只有四个方向连接的图

#图片（VIT）加入了 2D 的 position embedding

同时有许多工作证明位置信息对 Transformer 的性能起很大作用

#因此需要加入有关图结构信息的 embedding 作为辅助信息，本文加入了 Spatial，edge 和 centrality 三种结构性信息

Method

Structural Encoding

Centrality Encoding

关注节点重要性信息对图予以理解的影响

利用度的大小作为节点重要性的度量

二者分别是可学习的由入度和出度决定的嵌入，在无向图中二者合并为一个向量并由度的大小决定

Spatial Encoding

关注节点之间的空间位置关系

利用最短路径的大小作为两个节点的空间位置关系度量，如果不相连则将该值设为-1，并未每个距离设置一个可学习的标量

Edge Encoding

关注边特征的重要性

注意力机制管制节点对之间的相关性，连边的特征和这种相关性有一定的表征关系

对一个节点对找到一个最短传播路径，计算路径上所有边特征与一个可学习 embedding 点积的均值作为另一个偏置项

Details

Graphformer Layer

将归一化利用于多自注意力之前，FFN 层隐层神经元数量设置为等同于输入输出层的数量即嵌入维度大小 D

Special Node

加入了一个与所有节点相连的初始化节点 ，类似[CLS]

最终这个节点的特征视为全图的特征向量表征

同时，将这个节点与其他节点的空间编码 bϕ(vi​,vj​)​ 重置为一个不同的可学习参数

相关帖子

现在流行的 deepseek，各种多模态大模型与传统的机器学习和深度学习（sklearn 和 pytorch）是一回事吗？

卷积核

从 transformer 追溯到 CNN

插件点子征集：你最需要的插件是什么？

建议数据库增加仅复制结构，表右键菜单增加清空表

把文章的高亮放在旁边的设计， 感觉思源也可以做个试试

[js] 代码片段分享 - 思源关系图谱的深度支持

欢迎来到这里！

加入了一个与所有节点相连的初始化节点，类似[CLS]

同时，将这个节点与其他节点的空间编码 $b_{ϕ (v_{i}, v_{j})}$ 重置为一个不同的可学习参数

把文章的高亮放在旁边的设计，感觉思源也可以做个试试