GraphOmakase

24년 4월 넷째주 그래프 오마카세

Simple Spectral Graph Convolution

ICLR 2021

paper link

official code

Keywords

Simple Graph Convolution, Markov Diffusion Kernel

Background

GCN (kipf et al.)이 수많은 Graph Convolution 정의의 바탕이 되고 있으며, Variant networks의 발전이 빠르게 이루어지고 있는 사실은 다들 잘 아시고 계실 것입니다.
기존 Spectral Graph Convolution 정의를 Approximation하여 Operation process를 단순화하였으며, Normalized Graph Shift Operator (GSO) 및 여럿 Tricks를 추가하여 Oversmoothing 문제를 회피하면서 적은 레이어로도 Semi-supervised Learning 분야에서 좋은 성능을 달성할 수 있는 점에서 큰 기여를 하였다는 것을 알 수 있습니다.
하지만, Residual connection을 통해 이전 레이어의 정보를 잃어버리지 않으면서 레이어를 매우 깊게 쌓을 수 있으며 상당한 Benefit을 얻어낼 수 있는 CNN의 장점을 GCN에서는 제한적이라는 점이 현재까지도 거론되고 있는 문제 중 하나로 남아있습니다.
이는 레이어를 깊게 쌓을수록 그래프 상 모든 노드의 Feature value가 유사해짐으로써 Class distinguishable 할 수 없어지게 되는 Oversmoothing 현상이 존재하기 때문입니다. 다음 문제는 이전 오마카세에서 다루어본 Spectral Graph Convolution의 Aggregation terms를 잘 살펴보면 이해해볼 수 있는 부분이라 생각합니다.
결과적으로 대부분의 GCN 기반 Variant models는 깊은 레이어를 쌓을 수 없고 대체로 2개의 레이어로만 도메인 성능을 커버하는 경향이 존재하며, Long-range Dependency를 포착하지 못하는 한계점을 드러내게 됩니다. 즉 Global Relation 정보를 놓치기 쉬우며, Real world dataset에서 만연한 중요한 Feature를 학습하지 못하게 됨으로써 성능적으로도 나쁜 결과를 얻어내게 됩니다.
이러한 문제를 해결하기 위해 많은 방법론들이 제안되어져 왔으나, 이번에 소개해드릴 오마카세는 vanilla GCN의 Non-linear 성분을 제거함으로써 Computational Complexity를 크게 감소시키면서도 더 높은 성능을 달성할 수 있었던 SGC (Wu et al.) 모델의 새로운Specteal kernel 설계를 기반으로 접근한 논문 한편을 소개해드리겠습니다.

Introduction

다음 논문에서도 GCN의 문제점 (Limit of stacking layers, oversmoothing)을 언급하면서, 그 원인으로 모델 설계과정에서 Required Neighbors size와 Depth of Neural Network 설정이 서로Independent하게 고려된다는 사실을 언급합니다.
위의 설명을 생각해보면, 높은 Similarity를 갖는 이웃 노드들을 모두 커버하기 위한 Optimal Receptive Field와 최대 2개로 지정되는 Layer Depth의 Cover Boundary는 서로 비례하지 않는다는 것으로 이해해볼 수 있습니다.
일부 연구 (Klicpera et al.)에서는 기본 Convolution mechanism을 수정하기 위해, Personalized PageRank Matrix를 활용하여 Power of Normalized Adjacency matrix를 대체하는 방법을 제안하였습니다. 그로써 Oversmoothing 문제를 완화할 수 있었으나, Highly complexity 및 Long-range dependency 문제를 해결하지 못하였습니다.
다음 논문에서는 그래프 스펙트럼 이론을 기반으로 한 Oversmoothing 및 Long-range dependency 문제들을 해결할 수 있는 방법론을 설명합니다. 핵심 아이디어는 Network depth의 의존도에서 벗어나, Aggregated Neighbors boundary를 점진적으로 확대해가면서 Local & Global context를 동시에 포착할 수 있는 Low & High-pass filter bands의 Trade-off Filter를 설계하는 것입니다.

Methodology

Filter 설계에 있어서 해결방법으로 고려해야 할 중요한 2가지 주장을 합니다.
- Claim I : 가장 가까운 이웃 노드에 더 높은 가중치를 할당할 수 있어야 한다. Diffusion step의 관점에서 다음 사실은 낮은 가중치를 할당받은 이웃 노드들은 높은 가중치의 이웃 노드에 속할 수 있음을 내포한다.
- Claim II : 필터의 차수(K)가 무한대에 가까운 매우 큰 값을 가질 때, 해당 Receptive field는 낮은 차수의 Receptive field를 커버하면서 그보다 더욱 큰 Receptive field와 통합할 수 있어야 한다.
- (다음 주장에 대한 세부적인 내용은 본 논문의 Supplementary를 참고해주시기 바랍니다.)
위의 주장을 따라 기존 Markov Diffusion Kernel을 수정한 Spectral Kernel을 설계하기로 하였으며, 결과적으로 최적 파라미터 K=16의 넓은 Receptive field를 갖는 제안 Kernel에서 Oversmoothing 문제 없이 기존 SGC (K=4) 필터의 Cover Boundary를 더 넓게 확장시킬 수 있었다고 합니다.
(자세한 수학적 전개 및 설명은 생략하겠습니다.)

Eq. 10 Markov Diffusion distance

Linear projection (filter) acting on GSO

여기에서 T는 Normalized Adjacency Matrix(GSO)로 정의합니다.
Markov Diffusion Kernel은 K차수 GSO(T^k)의 평균으로 정의한 Linear filter (Z(K))를 가지고 식 10의 Markov Diffusion distance를 정의함으로써, 이웃 노드의 Boundary를 정의합니다.
식 10을 보아, 노드 i에 대한 Markov Diffusion Kernel의 (output) Feature map은 아래와 같습니다.

Feature map(output) of Markov Diffusion kernel

제안 필터의 동작을 간략하게 Fig 1에서 확인해볼 수 있습니다.
Fig 1 (a)은 고유값 \lambda(or spectrum) 함수 f(\lambda)의 K값 차이에 따른 그래프 변화를 보여주고 있습니다. K값이 커질수록 filter Z(K)는 더욱 Low-pass filter로 동작하게 되는 부분을 확인해볼 수 있으며, Fig 1(b)에서는 K>1의 경우에서 T(Normalized Adjacency Matrix)의 큰 고유값 (eigenvalue index >= 1500) 요소들을 잘 보존하는 사실도 알 수 있습니다.
즉, Markov Diffusion Kernel은 K값이 커짐에 따라 그래프 상 노드들의 Locality를 유지하면서 더 넓은 범위의 이웃 노드들까지 모두 포착할 수 있는 이점을 확인해볼 수 있습니다.
위 사실을 바탕으로 저자들은 Markov Diffusion Kernel을 SGC 모델에 적용시킨 SSGC 모델을 새롭게 제안하였으며, 다음의 Convolution은 아래와 같이 정의합니다.

Eq. 13 Graph Convolution of proposed SSGC.

Experiment

Node clustering, Community Prediction, Node classification, Text classification의 4가지 task에서 SSGC를 검증합니다.
Oversmoothing 및 Long-range dependency 문제에 맞는 실험환경을 구축하기 위해 Large scale benchmark dataset에서 baseline models의 레이어 깊이에 따른 성능 결과를 잘 분석해 제공합니다.

Table 8은 레이어 깊이에 따른 baseline model 및 SSGC의 node classification accuracy를 비교하였습니다.
K>4의 기존 GCN, SGC의 성능은 모든 데이터셋 상에서 떨어지는 반면, SSGC는 K=16 or 32까지 깊은 레이어에서 더 좋은 성능을 얻어낼 수 있다는 사실로부터 저자들이 주장했던 내용 (Claim II)을 뒷받침해주는 결과를 확인해볼 수 있습니다.

Conclusion

본 논문에서는 Markov Diffusion Kernel을 적용한 SGC 모델인 SSGC를 설계하고, 기존 GCN 계열 모델의 문제점을 해결하는 방법을 제안하였습니다.
점진적으로 이웃 노드의 범위를 확장하여 Global & Local Context 포착의 균형을 유지하면서, 기준 노드로부터 가장 가까운 이웃 노드에 더욱 큰 가중치를 할당할 수 있어야 하는, Markov Diffusion Kernel 설계를 위한 두가지 저자들의 주장을 기반으로 여러 Tasks에서 좋은 성능을 확인하고 그에 따른 분석을 해석해볼 수 있었습니다.
글의 복잡도를 낮추기 위해, 자세한 아이디어 전개 설명 및 기존 GCN 계열 모델과 제안 SSGC 모델의 연결 관계 부분을 해당 오마카세에서는 생략하였으나, Generalization 측면에서 한번쯤 읽어보시면 괜찮을 것 같습니다.

[Contact Info]

Gmail : jhbae7052@gmail.com / jhbae1184@akane.waseda.jp

Twitter (X): @jhbae1184

Scalable Multi-Hop Relational Reasoning for Knowledge-Aware Question Answering

정이태

논문 : https://arxiv.org/pdf/2005.00646.pdf

코드 : https://github.com/INK-USC/MHGRN

한 줄 두 줄

Path-based 의 근본적인 문제인 scalability 와 embedding 의 black-box 문제를 attention score로 잘 풀어낸 논문. in-context 방법론 중 Knowledge graph reasoning & retrieval 이 관심받고 있는 가운데 한 번 읽어보면 좋을 논문.

무슨 문제를 정의했는지?

scalablity - Knowledge graph 에서 발생하는 확장성을 GNN 관점의 Message passing을 활용해 해결해보고자 함.
interpretability - Attention score와 probabilistic graphical models 관점을 활용해 연산된 값을 디코딩하여 해결해보고자 함.

요약에 요약

지식그래프 -> GNN Message passing GNN message passing 은 interpretability가 어려움.
interpretability를 위해 attention score 사용.
attention score 연산량을 감소하기 위해 Probabilistic graphical model 형태로 각 sequence condition 마다 node , relationship attention score가 어느정도인지를 확인함.
text + graph 임베딩 값을 plausability score 라고 지칭하며, 각 score마다 해당 값들을 추론했을시, 답변이 correct / incorrect answer인지를 학습하며 cross entropy 함수로 최적화함.
추론시 answer entity 그리고 path length attention score 를 활용해 연관있는 reasoning path를 decoding 할 수 있다.

논문 아키텍쳐

지식그래프의 고질적 문제인 Scalability와 핵심 장점인 Interpretability는 어떻게 ?

Knowledge Graph(KG)의 장점을 떠올려보자면 노드와 노드 사이 의미가 부여된 semantic 을 통해 logical 하게 데이터를 해석할 수 있다. 라고 할 수 있습니다. 바로, 서두에 이야기한 interpretability입니다.
해석을 위해선 관련 있는 노드와 엣지를 가져와야 합니다. 하지만, 기존 KG path-based method 들은 너무 많은 종류의 노드 그리고 엣지들 때문에 가져오기 위한 연산량이 polynomial , exponential 하게 증가합니다. 아무리 좋은 해석력을 가지고 있다고 하더라도 활용하기 위한 연산량이 상당하기에, 이를 어떻게 할 지 고민이였던거죠. 이 점을 논문 저자는 기존 방식인 path들을 sequence model를 활용해 임베딩하는 것이 아닌 , GNN 의 Message passing 을 활용하여 해결해보고자 시도합니다.
GNN 모델은 scability 측면에서 message passing을 통해 가져오면 되기에 상대적으로 연산 이슈가 적습니다. 하지만, message passing에서 기존 interpretability를 위한 transparency를 어떻게 가져올지도 고민해야했음. 이 때, attention score를 활용해 node , relation 마다 얼마나 중요한지를 대신하여 측정하고 판별하는거죠.
알고리즘 동작 중 재밌는 부분은 (11) equation 입니다.

probabilstic graphical model 형태의 식과 유사합니다. condition 에 따라 값이 달라지는 메커니즘을 활용합니다. 특정 relation type , node type 마다 condition 인 statement 를 활용해 attention score parameter 를 효율적으로 활용하기 위해 재밌는 시도를 합니다.
또한, 본 과정을 통해 산출된 k-hop relation들을 decomposing 하여 유의미한 relation type인지를 판단하기 위한 기준으로 \tau 를 활용합니다. 이를, 통해 relation이 high-importance 혹은 nosiy 인지를 판별하여 path-based method의 정교함을 더합니다.

Knowledge graph 가 유의미한지를 판단하는 기준

최종 목적은 Knowledge graph embedding 값을 활용했을시, 모델이 CommonQA task 에서 성능 향상이 있는지 없는지를 확인하는 것이기에, knowledge graph embedding 값이 유의미한지를 확인하는 기준이 필요합니다.
이를 위해, knowledge graph로부터 받아온 knowledge source가 question 에 부합한 재료인지를 판단하기 위한 기준으로 plausibility score 관점을 사용합니다.
각 node embedding된 값들이 property로 있는 entity node들을 attentive pooling 하여 graph representation 값을 얻습니다.
text representation 값과 graph representation 값을 함께 사용하여 plasubility 값을 도출합니다.
cross entropy loss function을 활용해서 correct answer 와 incorrect answer 최적화합니다.

주방장 생각

In-context learning 이라는 방법이 대세인데, 돌고 돌아 기초를 찾듯이 본 논문이 Knowledge graph reasoning 기초인 path-based 를 재밌고 쉽게 풀어냈습니다.
너무 많은 학습량 때문에, 질문에 부합한 내용이 무엇인지를 주는 것이 좋은 방안으로 이슈가 되고 있습니다. 하지만 근본적인 의문이 들었습니다. context 를 주는게 맞을까 아니면 embedding과 함께 context 를 주는게 맞을까에 대한 본질적인 의문이 떠올랐습니다.
본 논문 아이디어는 그에 대한 해답을 얻기 위한 탐험 과정이 되지 않을까 합니다.
이를, 반영하기 위한 Reasonable knowledge 를 가져오는 방식에 대해 기초적인 접근으로 보면 좋을 논문이라 생각합니다.
특히 , compared methods 들로 그 당시 쟁쟁한 모델들과 비교하여 결과를 보여준 부분은 하루가 멀다하고 새로운 모델들이 나오는 요즘 역사로부터 배운다 라는 말이 떠오를만큼 그 때 당시와 지금을 비교해서 보는 것 또한 논문 재미 포인트 중 하나라 생각합니다.
과연 직접적으로 knowledge 를 주입하는 것이 아닌 텍스트와 그래프 임베딩 값을 통합하는게 맞는 선택인지에 대한 고민에 도움이 될 논문이라 생각합니다.