25년 10월 3주차 그래프 오마카세

GraphLand: Evaluating Graph Machine Learning Models on Diverse Industrial Data

GraphLand: Evaluating Graph Machine Learning Models on Diverse Industrial Data
Although data that can be naturally represented as graphs is widespread in real-world applications across diverse industries, popular graph ML benchmarks for node property prediction only cover a surprisingly narrow set of data domains, and graph neural networks (GNNs) are often evaluated on just a few academic citation networks. This issue is particularly pressing in light of the recent growing interest in designing graph foundation models. These models are supposed to be able to transfer to diverse graph datasets from different domains, and yet the proposed graph foundation models are often evaluated on a very limited set of datasets from narrow applications. To alleviate this issue, we introduce GraphLand: a benchmark of 14 diverse graph datasets for node property prediction from a range of different industrial applications. GraphLand allows evaluating graph ML models on a wide range of graphs with diverse sizes, structural characteristics, and feature sets, all in a unified setting. Further, GraphLand allows investigating such previously underexplored research questions as how realistic temporal distributional shifts under transductive and inductive settings influence graph ML model performance. To mimic realistic industrial settings, we use GraphLand to compare GNNs with gradient-boosted decision trees (GBDT) models that are popular in industrial applications and show that GBDTs provided with additional graph-based input features can sometimes be very strong baselines. Further, we evaluate currently available general-purpose graph foundation models and find that they fail to produce competitive results on our proposed datasets.

Github link : https://github.com/yandex-research/graphland

  • 특히 데이터 중심 패러다임 내에서 급성장하는 머신러닝 분야는 모델 성능을 정확하게 평가하기 위해 고품질의 현실적이고 다양한 벤치마크의 필요성을 강조합니다. 그러나 기존에 널리 사용되어 오던 그래프 ML 벤치마크 데이터셋에 대한 비판이 많았습니다.
    • 실질적인 관련성 부족, 낮은 구조적 다양성 등으로 인해 가능한 그래프 구조 공간의 대부분이 표현되지 않는 문제, 낮은 어플리케이션 도메인 다양성, 타겟 도메인에 도움이 되지 않는 그래프 구조, 데이터 수집 프로세스의 잠재적 버그 등이 그 이유입니다.
    • 이러한 한계는 더욱 향상된 그래프 ML 기법을 설계하고 평가하는 데 상당한 어려움을 야기합니다.
  • 해당 논문은 Neurips2025 D&B 트랙에 억셉된 논문으로, 산업적 그래프 커뮤니티에 더 나은 벤치마크를 제공하기 위한 GraphLand 이름의 대규모 데이터셋을 소개하고 있습니다. GraphLand은 그래프 ML의 노드 속성 예측 작업을 위해 다양한 산업 응용 분야에서 특별히 선별된 14가지 그래프 데이터셋으로 구성되어 있습니다.
  • GraphLand 데이터셋에서 다양한 GNN 모델(GCN, SAGE, GAT, GT)을 평가한 결과 다양한 산업 도메인 상에서도 여전히 강력한 성능을 얻어낼 수 있음을 밝히면서도, Gradient Boosted Decision Tree(GBDT - XGBoost, LightGBM, CatBoost)와 같이 추가적인 그래프 기반 입력 정보를 제공받는 모델과 비교될 수 있다는 사실도 발견하였음을 언급합니다.
  • GraphLand의 핵심 목표는 제한된 학술 인용 네트워크(Citeseer, PubMed 등)에 주로 의존하는 기존 그래프 ML 벤치마크의 좁은 범위를 해결하는 것입니다. GraphLand는 다양한 크기, 구조적 속성 및 특징 집합을 가진 그래프에서 해당 그래프 ML 모델을 평가하기 위한 통합 프레임워크를 제공합니다. 또한, Inductive 및 Transductive setting 모두에서 현실적인 시간 분포 변화가 그래프 ML 모델 성능에 미치는 영향을 연구할 수 있는 독보적인 기능을 제공합니다.

  • 기존 그래프 ML 벤치마크의 제한 사항은 다음과 같습니다.
    • 실용적 관련성 부족 : 벤치마킹에 사용되는 많은 데이터 세트는 실제 산업 시나리오에 직접 적용할 수 없습니다(Bechler-Speicher et al., 2025).
    • 낮은 구조적 다양성 : 사용 가능한 벤치마크는 광대한 그래프 구조 공간의 아주 작은 일부만을 나타내므로, 벤치마크를 기반으로 학습된 모델의 일반화가 제한됩니다(Palowitch et al., 2022; Maekawa et al., 2022).
    • 좁은 응용 분야 다양성 : 데이터 세트는 주로 제한된 범위의 응용 분야를 포괄하며, 학술 인용 네트워크가 과도하게 표현됩니다(Bechler-Speicher et al., 2025).
    • 의심스러운 그래프 구조 유용성 : 일부 작업의 경우 기존 데이터 세트의 그래프 구조가 예측 작업에 실제로 도움이 되지 않아 복잡한 GNN의 유용성에 대한 의문이 제기될 수 있습니다(Errica et al., 2020; Li et al., 2024b; Coupette et al., 2025).
    • 데이터 수집 문제 : 인기 있는 벤치마크에서 잘못된 레이블이나 중복된 노드의 사례가 보고되어 무결성이 손상되었습니다(Li et al., 2023; Platonov et al., 2023b).
  • GNN 평가에서는 실제 응용 프로그램과의 보편적 연관성보단 개방적인 접근성에 기인합니다. 놀랍게도 소셜 네트워크, 웹 그래프, 도로망과 같은 전형적인 실제 그래프는 쉽게 접근 가능한 고품질 데이터세트가 부족하여 활용도가 낮습니다. 이러한 격차는 다양한 그래프 데이터세트를 활용하도록 설계된 그래프 파운데이션 모델(GFM)에서 특히 문제가 됩니다.
  • 최근 GFM에 대한 관심이 높아지고 있는 추세임에도 불구하고, 현재 서로 다른 그래프 간의 일반화에 필요한 임의 노드 속성을 처리할 수 있는 모델은 소수에 불과합니다. 현재의 GFM 평가는 텍스트 기반 그래프에만 초점을 맞추는 경우가 많아 산업 응용 분야에서 흔히 사용되는 다양한 노드 피처 세트(수치형, 범주형, 혼합형)를 처리해야 하는 중요한 필요성을 간과하고 있습니다.
    • 저자들은 여러가지 GFM 프레임워크(OpenGraph, AnyGraph, GCOPE 등)들을 활용하여 GraphLand 데이터셋에서의 광범위한 평가를 수행하였습니다. 결과적으로 파운데이션 모델이라는 타이틀에도 불구하고, 현재 GFM이 임의 노드 특징 및 확장성 측면에서 어려움을 겪고 있으며 결과적으로 매우 약한 성능을 보여주고 있음을 지적하며 위 문제점을 강조합니다.
    • 이러한 격차를 해소하기 위해 합성 데이터세트를 제안하는 경우도 있지만, 저자들은 편향되지 않은 성능 추정을 보장하고 그래프 ML의 산업적 잠재력을 강조하기 위해 실제 데이터를 활용할 것을 주장합니다.
  • 본 논문의 핵심적인 기술 혁신은 꼼꼼하게 선별된 벤치마크인 GraphLand 와 포괄적인 실험 프레임워크 의 도입에 있습니다. 즉, GraphLand는 다양하고 현실적이며 산업적으로 관련성 있는 데이터셋 모음을 제공함으로써 기존 그래프 ML 벤치마크의 한계에 직접적으로 대응합니다.
  • 해당 데이터셋의 특징은 다음과 같이 요약할 수 있습니다.
    • 산업 응용 범위 : 소셜 네트워크, 웹 그래프, 도로망 등 실제로 흔히 접하는 영향력 있는 도메인들이지만 기존 벤치마크에서는 잘 찾아보기 어려운 노드 수준의 회귀 작업 관련한 데이터셋을 포함하고 있습니다.
      • 웹 그래프 데이터셋(웹 트래픽, 웹 사기, 웹 주제) : 인터넷 세그먼트를 나타내며, 노드는 웹사이트를, 에지는 사용자 링크를 나타냅니다. 작업에는 웹사이트 트래픽(회귀), 사기(이진 분류), 주제(다중 클래스 분류) 예측이 포함됩니다.
      • 아트 크리에이터 소셜 네트워크(artnet-views, artnet-exp) : 노드는 사용자를, 엣지는 구독을 나타냅니다. 작업에는 사용자 조회수 예측(회귀)과 명시적 콘텐츠 생성(이진 분류)이 포함됩니다.
      • 도로망(도시-도로-M, 도시-도로-L) : 노드는 도로 구간이고, 간선은 교통 흐름을 나타냅니다. 과제는 평균 이동 속도(회귀 분석)를 예측하는 것입니다.
      • 리뷰 서비스(city-reviews) : 노드는 사용자, 에지는 공유 리뷰 조직을 나타냅니다. 이 작업은 사기 탐지(이진 분류)입니다.
    • 크기 범위 : 수천개 ~ 수백만 개에 이르는 노드는 다양한 계산 리소스를 가지는 연구자들에게 폭넓은 기회를 제공합니다. 그래프 크기, 밀도 및 기타 위상적 특성이 상당히 다른 다양한 그래프 구조 특성들이 예측 작업에 실제로 유리한 도메인에 맞추어 구성되었습니다.
      • avazu-ctr : 광고 상호작용 데이터, 클릭률 예측.
      • hm-categories, hm-prices : 제품 공동 구매 네트워크, 제품 카테고리 또는 가격 예측.
      • pokec-regions : 온라인 소셜 네트워크, 사용자 지역을 예측합니다.
      • twitch-views : 라이브 스트리밍 네트워크, 사용자 조회수를 예측합니다.
      • tolokers-2 : 크라우드소싱 플랫폼 네트워크, 사기 예측.
    • 풍부한 노드 속성 : 숫자 및 범주형 특징을 포함하는 풍부한 노드 속성은 현재 벤치마크에서 표준으로 사용되는 텍스트 설명보다 산업 응용분야에 더욱 일반적입니다.
    • 시간 데이터 포함 : 실제 수많은 네트워크는 시간이 지남에 따라 동적으로 진화하는 속성을 갖기 때문에, GraphLand의 많은 데이터셋에는 시간 데이터가 포함되어 있어 분포 변화를 연구하기 위한 현실적인 시간 기반 분할과 귀납적 설정이 가능합니다. 그로부터 더욱 까다로운 시간적 데이터 분할 및 귀납적 학습 환경에서 진화하는 네트워크의 초기 스냅샷을 사용할 수 있는 모델 평가의 기회를 제공합니다.
    • 다양한 학습 시나리오 : 모든 데이터셋에 대해 낮은 레이블 비율과 높은 레이블 비율을 갖는 두 가지 무작위 데이터 분할을 제공합니다.
  • 이 논문은 다양한 그래프 간의 공정한 비교를 보장하기 위해 "편향되지 않은 동질성(unbiased homophily)" 척도를 사용하여 평균 차수, 중간 차수, 평균 거리, 직경, 클러스터링 계수, 동질성과 같은 그래프 속성을 세밀하게 설명합니다. 이러한 포괄적인 특성 분석은 GraphLand가 비동질성(heterophiliy) 데이터셋을 상당히 확장했음을 보여줍니다.
  • 또한 GraphLand는 견고한 평가 프레임워크를 제공하기 위해 다양한 실제 시나리오를 모방하는 데 중요한 네 가지 데이터 분할(Random-Low / High, Temporal High Split, Temporal High Inductive Setting)을 정의합니다.

  • GraphLand 데이터셋은 다양한 데이터 분할과 모델 아키텍처를 통틀어서 철저한 검증을 거쳤으며, 그로부터 현실적인 산업 데이터 세트에서 그래프 ML 모델의 성능에 대한 중요한 통찰력을 제공합니다.
    • 그래프 구조의 이점 : 모든 데이터셋과 무작위 분할 실험에서 GNN은 그래프 독립 모델(ResMLP)보다 일관되고 유의미하게 우수한 성능을 보였습니다. 이는 GraphLand 데이터셋의 그래프 구조가 해당 작업에 실제로 유용함을 보여줍니다.
    • NFA 증강의 효과 : 그래프에 agnotic한 모델에 NFA(Neighborhood Feature Aggregation)를 적용하면 성능이 크게 향상됩니다. LightGBM을 NFA로 증강하면 매우 강력한 기준선이 되며, 특히 회귀 작업에서 일부 데이터셋에서 최고 수준의 결과를 달성하기도 합니다. 이는 기본적인 그래프 정보가 기존 모델을 크게 향상시킬 수 있음을 보여줍니다.
    • GNN 성능 : 단일 GNN 아키텍처가 일관되게 우위를 점하는 것은 아니지만, GAT 및 Graph Transformer(GT)와 같은 어텐션 기반 GNN은 대부분의 데이터셋에서 기존 GNN(GCN, GraphSAGE)보다 우수한 성능을 보이는 경우가 많습니다. 이는 모델이 콘텐츠에 따라 이웃 메시지에 다양한 가중치를 할당할 수 있도록 하는 메커니즘의 중요성을 강조합니다.
    • 그래프 기반 모델(GFM)의 성능 : 중요한 발견은 현재 사용 가능한 범용 GFM(OpenGraph, AnyGraph, GCOPE)이 GraphLand 데이터셋에서 낮은 성능을 보인다는 것입니다. 이러한 GFM들은 강력한 기준선이나 기존 GNN과 비교해도 경쟁력 있는 결과를 얻지 못하는 경우가 많습니다. 이는 현재 GFM이 풍부하고 다양한 노드 속성을 가진 다양한 산업 그래프에 아직 제대로 일반화되지 않았음을 시사합니다.
    • 시간 분포 변화의 영향 : 무작위 데이터 분할과 시간 데이터 분할을 비교했을 때, 모델은 시간 분할에서도 상당히 낮은 성능을 보입니다. 이는 산업 분야에서 흔히 발생하는 현실적인 시간 분포 변화가 모델 성능을 심각하게 저하시키고, 이를 고려하지 않을 경우 지나치게 낙관적인 평가로 이어질 수 있음을 보여주는 중요한 관찰 결과입니다.
    • Inductive 설정 vs. Transductive설정 : 학습 중 검증 및 테스트 노드가 전혀 보이지 않는  Inductive setting 은 Transductive setting에 비해 성능이 현저히 떨어집니다. 이는 동적으로 진화하는 그래프가 직면한 과제와 그래프 ML 접근이 학습 시점 때 보이지 않는 정보에 강건해야 할 필요성을 보여줍니다. 일부 해결 방법들이 존재하지만 (ICL 기반 GFM) 전반적인 성능은 여전히 ​​기대 이하입니다.
  • 전반적으로, 이러한 결과는 그래프 ML이 산업 응용 분야에서 상당한 이점을 제공할 수 있음을 강조합니다. 그러나 GFM을 포함한 기존 그래프 ML 기법이 시간적 변화나 귀납적 시나리오와 같은 현실적인 문제에 대해 상당한 취약성을 가지고 있음을 보여주며, 이는 더욱 Recoverable하고 일반화 가능한 모델의 필요성을 강조합니다.
  • 마지막으로 GraphLand 데이터셋은 기존 그래프 ML 연구와 그 실제 적용의 경계를 넓히는 몇 가지 주요 인사이트들과 한계점을 제공합니다.
    • 이론적 기여 : 이 논문에서는 다양한 산업용 그래프를 소개하고 광범위하게 특성화하여 실제 그래프 속성을 더 잘 이해할 수 있도록 돕습니다. 다음 구성 알고리즘은 기존 방식보다 더욱 강력한 측정 방법인 "비편향적 동질성"을 포함하여 그래프-레이블 관계를 세심하게 분석하여 단순한 동질성/이질성을 넘어 데이터 세트 특성을 더 잘 분류합니다.
    • 실용적 기여(가치) : GraphLand는 산업적으로 연관성이 높은 그래프 ML 연구를 위한 매우 필요하고 현실적인 데이터를 제공하여 산업 현장에서 실제로 적용 가능하고 효과적인 모델(예: 사기 감지, 트래픽 예측, CTR)의 개발을 장려합니다. 연구 결과는 특히 회귀에 대한 놀라울 정도로 강력한 기준선임을 입증했으며, 산업 도메인 측면에서 GNN에 대한 실질적인 보완책을 제공합니다. 또한 그래프 기반 모델에 대한 구체적이면서도 까다로운 평가를 제공하여 다양한 노드 기능 세트와 규모로 일반화하는 데 있어 현재의 한계를 밝히고 진정한 일반성을 달성하기 위한 명확한 미래 연구 방향을 설정합니다.
    • 데이터셋 한계 및 비판적 견해:
      • 저자들은 실험을 위해 모든 유향 그래프를 무향 그래프로 변환했습니다. 이는 계산과 특성 측정을 단순화하지만, 많은 실제 네트워크(예: 웹 링크, 구독)에 내재된 귀중한 방향 정보를 잠재적으로 잃게 됩니다. 또한 이 벤치마크는 노드 속성 예측 작업에만 집중합니다. 이는 그래프 ML에서 상당히 중요한 도메인이지만, 실제 애플리케이션에는 링크 예측, 그래프 분류, 커뮤니티 감지와 같은 다른 작업도 포함됩니다
      • 기존 GFM이 실제 산업 그래프에 널리 존재하는 다양한 노드 특성과 구조적 복잡성을 처리할 만큼 충분히 견고하지 못함을 시사합니다. 이는 GFM 설계 원칙과 실제 애플리케이션의 요구 사항 사이에 근본적인 차이가 있음을 시사합니다.
      • 특히 대규모 그래프에서 일부 모델은 시간 제한 초과 또는 메모리 제한 초과오류문제가 존재합니다. 이는 특히 그래프 딥러닝 모델의 확장성 과제가 지속되고 있음을 보여주며, 매우 큰 규모의 산업용 그래프에는 더욱 효율적인 아키텍처 또는 학습 전략이 필요함을 시사합니다.

[Contact Info]

Gmail: jhbae1184@akane.waseda.jp

Twitter (X): @jhbae1184

LinkedIn

Read more

25년 10월 2주차 그래프 오마카세

Flexible GraphRAG: a configurable open source framework for GraphRAG Blog link : https://integratedsemantics.org/ Github : https://github.com/stevereiner/flexible-graphrag * 이번 주 오마카세는 'Open Source Integrated AI and Semantic Tech' 블로그에서 설명하는 통합된 오픈소스 플랫폼 관련한 소식을 전달해드리고자 합니다. 최근 포스트에서는 문서 처리, 지식 그래프 구축, RAG 및

By admin

25년 10월 1주차(2) 그래프 오마카세

1.광고 안녕하세요 정이태입니다.오랜만에 10월 23일 목요일 저녁에 GUG 온라인 세미나가 예정되어 있습니다. 카이스트 김재철AI대학원 신기정 교수님 연구실 소속 김선우 연구원님과 하이퍼 그래프 이론부터 응용까지 라는 주제로 진행할 예정이며, 저또한 모더레이터 겸 요새 GraphRAG 트랜드부터 왜 HyperGraphRAG가 나오고 있는지 산업계 관점에서 생각을 공유드릴 예정이오니 관심있는 분들은 참여하셔서 본인 연구나

By Hardy

25년 9월 4주차 그래프 오마카세

Are Large Language Models Good Temporal Graph Learners? Youtube link : https://www.youtube.com/watch?v=jmCwOQX9Ank * 이번 주 오마카세는 TGL (Temporal Graph Learning) 세미나에서 대규모 언어 모델(LLM)이 관계형 데이터베이스에서 어떻게 딥러닝을 수행하는지에 초점을 맞추어 발표된, 기존의 시계열 그래프 학습 방법론에 LLM을 접목하여 새로운 가능성을 탐색한 '대규모

By admin