25년 6월 3주차 그래프 오마카세
Addressing the Scarcity of Benchmarks for Graph XAI
paper link : https://arxiv.org/abs/2505.12437
official code : https://github.com/OpenGraphXAI/benchmarks

- 구조화된 데이터 학습의 사실상 표준 모델이 된 그래프 신경망에 대한 관심은 예전에 비해 많이 높아졌지만, 실제 어플리케이션에 배포되는 데 어려움이 존재합니다. 해석 가능성의 부족이라는 딥러닝 모델의 꼬리표가 여전히 남아있기 때문에 사용자에게 의사결정 프로세스의 과정이 불투명하여 신뢰할만한 결과인지, 특히 안전이 중요한 케이스에서는 많은 의문점들이 남아있습니다.
- 다음을 보완하기 위한 Graph XAI 기술이 많이 제안되어왔습니다. 그래프 분류에 있어서 해당 Graph XAI는 대체적으로 예측 가능한 서브그래프의 모티프(motif)를 식별하여 신뢰성을 확보합니다.
- 하지만 이러한 목적성을 뚜렷하게 갖는 벤치마크 데이터셋의 만성적인 부족 현상으로 변화하는 트렌드에 발맞춰 업데이트 되지 못하고 있으며, 더욱 고차원적인 그래프 구조 및 처리 모델에 대한 품질의 설명력이 부족합니다.
- 해당 XAI 벤치마크는 합성 데이터 또는 도메인 전문가를 통해 수동적으로 선별된 소수의 Real-world 태스크에 한정되어 있습니다.
- 다음 논문에서는 WL isomorphism test에서 사용되는 coloring 알고리즘을 기반으로 그래프 분류 작업에 XAI 벤치마크를 자동적으로 생성하는 일반적인 방법을 제안합니다. 즉, Real-world 데이터셋에 WL coloring을 적용한 결과를 활용하여 각 클래스 내 동일한 서브구조(sub-structure)를 공유하는 하위 그래프 집합을 식별합니다.
- 식별된 하위 그래프 집합 상에서 타겟 레이블에 대한 discriminating pattern을 갖는 특정 서브구조(모티프)를 재추출하여 얻어진 결과물을 Ground truth(GT) 설명자로 취급합니다.
- WL isomorphism은 GNN의 표현력에 대한 이론적 상한을 구성하기 때문에 서브 모티프가 XAI 방법이 설명하고자 하는 Explanable GNNs 모델에 의해 잠재적으로 발견될 수 있다는 설명을 부연합니다. 즉, 기존 Graph XAI와의 차별점으로 원본 그래프의 실제 구조적 패턴을 적극적으로 함유하고 있다는 사실을 장담합니다.
- Graph XAI 벤치마크 생성의 자동화를 위해 클래스별 WL label 빈도를 기반한 휴리스틱한 방식을 채택합니다. 알고리즘 1에서 이진 그래프 분류 데이터셋에 대한 해당 과정을 설명합니다.

- 다음 알고리즘의 과정을 요약하면, 실제 그래프 데이터셋에서 WL 알고리즘을 통해 구조적 패턴(모티프)를 식별하고, 다음 패턴의 존재 유무를 기준하여 그래프 샘플을 선별함으로써 벤치마크 데이터셋을 생성합니다.
- 생성된 벤치마크의 출력은 그래프, 클래스 레이블, 레이블 예측을 설명하는 마스크 (모티프에 해당하는 노드 집합)의 튜플로 구성됩니다.
- 다음 알고리즘을 기반으로 생성된 XAI 벤치마크, OpenGraphXAI, 를 오픈소스로 공개하였으며, 캐글 사이트에서 json 파일로 파싱한 벤치마크를 같이 업로드하여 누구나 쉽게 확인해볼 수 있도록 제공하고 있습니다.
- 다음 데이터셋은 11개의 기존 분자 그래프 데이터셋에서 파생된 14개의 새로운 XAI 데이터셋 컬렉션으로, 동등한 또는 다른 크기의 서브 모티프를 갖는 양 클래스에 대한 GT 마스크의 설명을 포함한 다양한 가용성 시나리오를 다룹니다.
- 다른 TU 데이터셋에서 2000개 이상의 추가 XAI 벤치마크 생성을 위한 WL label 정보도 제공하고 있습니다.

- 해당 데이터셋의 유용성을 강조하기 위해, 여러가지 유명한 GNN explainers의 효과를 위 그림과 같이 평가합니다. 평가 결과에 따르면 Cam explainer가 OpenGraphXAI의 15개 데이터셋 중 13개에서 가장 높은 성능을 달성했음을 언급합니다.
- 제한 사항으로는, 해당 방법은 WL coloring을 통해 구분 가능한 GT 모티프으로만 제한됩니다. 다음 사항은 모든 서브모티프를 열거하는 일반적인 동형 문제의 계산 복잡성 완화를 위해 필수적이라고 합니다. 또한 아직까지 이진 분류 및 최대 하나의 모티프에 제한되어있지만, 차후 개선할 계획을 밝힙니다.
- 위 내용들을 아래와 같이 요약해볼 수 있을 것 같습니다.
- Graph XAI의 Real-world 벤치마크 데이터셋의 부족을 지적합니다. 해당 도메인에 대한 기존의 합성 데이터셋 및 수동적인 어노테이션 한계로부터 현재 트렌드에 맞는 XAI 데이터셋 구축 및 발전에 제약을 받고 있음을 언급합니다.
- 본 논문에서는 기존의 Real-world 데이터셋에서 해석 설명을 갖춘 자동 구축 XAI 벤치마크 데이터셋 방법론을 제안합니다. WL isomorphism coloring 알고리즘 기반의 생성 과정을 Algorithm 1에서 보여줍니다.
- 그로부터 생성된 OpenGraphXAI 벤치마크는 15개의 데이터셋을 오픈소스로 공개하였으며 2000개 이상의 추가 생성 가능한 코드를 제공하여 Graph XAI 평가의 유용성을 입증합니다.
[Contact Info]
Gmail: jhbae1184@akane.waseda.jp
Twitter (X): @jhbae1184