25년 2월 4주차 그래프 오마카세
Gradformer:The Graph Transformer enhances self-attention by graph structure Inductive Bias
paper link : https://arxiv.org/abs/2404.15729

- 그래프 트랜스포머 모델의 학습 아키텍처와 관련한 재밌는 논문을 하나 소개해드리고자 합니다. 논문 이름 그대로 노드 간 장거리 종속성을 잡아주는 어텐션 메커니즘이 그래프의 inductive bias까지도 추가 반영할 수 있는 새로운 메커니즘을 소개하고 있습니다. 위 그림에서와 같이 어텐션 행렬에 그래프의 구조적 근접성을 반영하는 Decay Mask을 단순 내적 연산을 통해 적용하여, 노드 간 상관관계를 점진적으로 임베딩해나가면서 이루어질 수 있다고 설명합니다.
- 다음 Decay Mask는 학습 가능하도록 설계되어 다양한 어텐션 헤드가 서로 다른 Mask를 학습할 수 있도록 합니다. 이 설계는 어텐션 헤드를 다양화하여 먼 노드의 정보를 수집하는 기능을 유지할 수 있으면서 그래프에서 지역적 구조적 정보를 보다 효과적으로 포착할 수 있도록 하여 기존 그래프 트랜스포머 모델의 핵심 과제를 해결할 수 있습니다. 또한 Decay 정도를 학습을 통해 자동 조절하도록 설계함으로써 다른 트랜스포머 모델과 달리 레이어 깊이가 증가하더라도 정확도가 어느정도 유지되는 효과로부터 그래프 분류 및 회귀 작업에서 다른 GNN 및 그래프 트랜스포머 모델보다 강력한 성능을 유지할 수 있음을 광범위한 실험을 통해 입증합니다.

- 위의 정량적 지표에서 보여주듯이, 제안하는 Gradformer는 정확도, 딥 네트워크의 안정성, 리소스가 부족한 환경에서의 성능, 효율성과 효과성 간의 전반적인 균형 측면에서 이전 모델에 비해 명확하고 정량화 가능한 개선을 보여줍니다.
- 저자가 언급하는 취약점도 여전히 존재하고 있습니다. 아래와 같습니다.
- MPNN 모듈에 대한 의존성: 저자는 Gradformer가 MPNN(Message Passing Neural Network) 모듈을 제거하면 성능이 약간 감소한다는 것을 인식합니다. 이는 모델이 효과적이기는 하지만 여전히 어느 정도 기존 그래프 처리 기술에 의존한다는 것을 나타냅니다.
- 깊은 레이어에서의 성능 저하: Gradformer는 다른 GT 모델보다 성능 저하가 적지만 일부 테스트에서 확인된 대로 깊이가 깊어질수록 정확도가 여전히 떨어질 수 있습니다.
- 그로부터 MPNN의 종속성을 줄이면서, Deep layer에서도 성능 강건성을 유지시키는 데 도움을 줄 수 있는 Decay Mask의 Advanced한 아이디어를 설계하는 차후 연구를 통해 계산 비용도 줄이면서 그래프 트랜스포머의 효율성을 개선할 가능성을 제시하고 있습니다.
- 자세한 내용 및 분석 논의 내용은 위 논문을 참고해주시기 바랍니다.
Towards Mechanistic Interpretability of Graph Transformers via Attention Graphs
paper link : arxiv.org/abs/2502.12352
official code : https://github.com/batu-el/understanding-inductive-biases-of-gnns
Chaitanya Joshi on LinkedIn: Our first attempts at mechanistic interpretability of Transformers from…
Our first attempts at mechanistic interpretability of Transformers from the perspective of network science and graph theory! Check out our preprint:…
- 최신 그래프 트랜스포머의 그래프 이론 기반 기계적 해석 가능성에 관한 자세한 논의 및 분석을 제공하는 논문입니다. 캠브리지 대학 학생들의 미니 프로젝트로 진행한 연구라고 하는데 내용이 정말 좋아보여서 시간내어 읽어보면 좋을 것 같다는 생각이 듭니다.
- 메세지 전달 및 셀프 어텐션 메커니즘의 수학적 동등성을 기반으로 GNN 및 그래프 트랜스포머의 학습 메커니즘을 해석할 수 있는 Attention Graph을 소개하고 있습니다. 아래와 같이 연속 두 레이어의 어텐션 행렬 간의 관계성을 조사하여, 두 행렬의 곱셈을 통한 패턴 결합을 기반으로 노드 i -> j -> k 으로의 정보 흐름을 설명합니다.


- 동종 및 이종 노드 분류 작업에 대한 실험을 통해 Network Science 관점에서 위의 Attention Graph를 통한 정보 흐름 과정을 분석하고 아래의 새로운 인사이트를 공유합니다.
- 그래프 트랜스포머가 입력 노드 사이에서 전체 대 전체 어텐션을 사용하여 최적의 그래프 구조를 학습할 수 있을 때, 모델에서 학습한 어텐션 그래프는 입력/원래 그래프 구조와 상관 관계가 없는 경향이 있습니다.
- 이종 그래프의 경우 서로 다른 Graph Transformer 변형이 서로 다른 정보 흐름 패턴을 활용하면서 유사한 성능을 달성할 수 있습니다.
- 그래프 신경망에 대한 시각적이고 지고간적인 학습 메커니즘 이해를 위한 모듈들이 많이 존재하고 있지만, 그래프 이론 기반의 수학적인 접근 방식으로 분석하고 있다는 점이 새로웠으며 자세한 이해를 위해 반복해서 읽어볼 가치가 있는 논문이라고 생각합니다.
[Contact Info]
Gmail: jhbae1184@akane.waseda.jp
Twitter (X): @jhbae1184