3월 둘째주 그래프 오마카세
Knowledge-inspired 3D Scene Graph Prediction in Point Cloud
NIPS 2021
배지훈
Keywords
Scene Graph Prediction, Knowledge Graph, Meta-embedding via Graph Auto-Encoder
Introduction
- 요즘 LLM에 대한 열풍이 엄청난 것 같습니다. 그런만큼 다음 도메인에 대한 문제점을 해결하기 위한 방법론들 또한 큰 관심을 받고, 엄청난 아이디어들 또한 쏟아지고 있습니다.
- 특히, LLM의 핵심 문제로 부상하고 있는 'Hallumination (환각증세)'를 해결하기 위해 지식 그래프 (Knowledge Graph, KG) 기반의 RAG (Retrieval Augmented Generation) 방법이 크게 떠오르고 있습니다. 그 덕택인진 모르겠지만, 최근 들어서 그래프에 대한 관심도가 크게 증가하였으며, 특히 지식 그래프 관련한 아이디어들이 도메인 불문하고 정말 많이 쏟아지고 있는 것 같습니다.
- 부끄럽지만 지식 그래프 및 자연어처리 쪽에 정말 문외한인 필자는 비전 쪽에서 그나마 지식 그래프가 많이 활용되었던 분야 중 하나인 '장면 그래프 (Scene Graph)' 관련 논문을 이번 주 오마카세에 소개해보고자 합니다.
- 장면 그래프는 해당 입력 데이터(ex. 2D 이미지, 3D 포인트 클라우드 등)를 잘 설명할 수 있는, Triplet 형태로 구축되어진 그래프 표현을 의미합니다. 여기에서 다음 Triplet은 <Subject, Predicate, Object>로 표현되어지며, 즉 두 객체 사이의 관계성을 잘 표현하는 서술어 (Predicate)를 예측하는 문제가 되겠습니다.
- 많은 논문에서, 해당 데이터에 대한 사전 지식(Prior Knowledge)를 잘 정제하여 장면 그래프를 구성할 때 다음 서술어 예측 정확도가 크게 향상됨이 증명되어져 왔으며, 그 이후로 지식 그래프를 기반으로 한 많은 접근 방법들이 제안되어져 왔습니다. 해당 논문도 제목 그대로 사전 지식을 기반으로 한 3D 포인트 클라우드 장면을 잘 설명하는 Triplet을 예측하는 새로운 방법론으로 이해해볼 수 있겠습니다.
Background
- 기존 장면 그래프의 대다수 방법론들은 입력 데이터의 시각적 특징 정보들을 인코딩한 Knowledge Embedding을 잘 추출해내어 핵심 패턴을 학습한 결과를 바탕으로 그래프를 구성하고 Triplet을 예측합니다.
- 하지만 시각적 특징정보에 큰 의존을 하고 있기 때문에, 비슷한 외형을 갖는 객체에서 발생하기 쉬운 오해 (Misunderstanding) 및 인지적 혼란 (Perceptual Confusion)에 의한 잘못된 결과를 얻어내기 쉬운 문제점을 지적합니다. 이러한 불완전하고 부정확한 시각적 정보들을 사전 지식(Prior Knowledge)으로 활용하는 부분에 있어서는 큰 노이즈로 작용할 수 있습니다.
- 저자들은 애초에 시각적 혼동성을 배제하고자 다음 특징정보를 아예 활용하지 않고, 오로지 레이블 정보에만 관련된 구조 패턴정보를 사전 지식으로 활용하여 해당 장면 그래프의 Triplet을 예측하는 새로운 방법을 제안합니다.
- 제안 방법의 전체 프레임워크는 그래프 오토인코더를 기반으로 Meta-Embedding으로 불리우는 사전 지식의 임베딩을 추출하는 단계와, 다음 임베딩을 바탕으로 장면 그래프의 Triplet을 예측하는 단계로 구성되어 있습니다.
Methodology
- 먼저, 저자들은 조건부 확률의 수학적 접근을 바탕으로 장면 그래프 예측 문제를 2가지 하위 문제들로 분리합니다.
- 첫번째 하위 문제 P(K|D)는 입력 포인트 클라우드가 주어졌을 때 해당 사전 지식인 Meta-Embedding을 얻어내는 단계로 볼 수 있습니다. (A. Meta-Embedding Learning) 여기에서 중요한 포인트는, 어떠한 시각적 정보를 활용하지 않고 오로지 입력 레이블 데이터를 활용하여 해당 장면의 규칙적 패턴과 레이블의 의미론적 정보 모두 인코딩하는 것입니다. 다음을 위해 저자들은 그래프 오토인코더 구조를 활용하였습니다.
- 두번째 하위 문제 P(G|D, K)는 첫번째 문제에서 얻어낸 Meta-Embedding과 입력 포인트 포인트 클라우드를 통합하여 최종 장면 그래프를 예측하는 단계로 볼 수 있습니다. (B. Knowledge-inspired Scene Graph Prediction)
A. Meta-Embedding Learning model
- 첫번째 문제에 접근하기 위해, 저자들은 객체(Object)와 서술어(Predicate)의 레이블 정보를 원핫 인코딩 형태로 정제하여 활용합니다. Background에서 언급한 혼동성 문제를 야기하지 않기 위해서 어떠한 기하학적, 시각적 특징정보는 일체 사용하지 않습니다.
- 먼저 MLP를 사용하여 두 레이블이 동일한 Latent Space에 위치하도록 mapping 시킵니다. 그리고 객체 및 서술어의 모든 latent 임베딩을 Fully connect하여 초기의 장면 그래프 (Initial Scene Graph)를 구축합니다.
- 여기에서 초기 장면 그래프는 두 객체 쌍을 노드로, 그 사이의 서술어를 엣지로 하여 구성되었습니다.
- 장면 그래프는 방향성 그래프 구조를 갖습니다. (Subject -> Object)
- 그 이후, 메세지 전달 메커니즘 (Message Passing) 기반으로 초기 장면 그래프의 구조적 패턴 및 관계성을 인코딩합니다. 저자들은 초기 그래프 정보를 보존하면서 Hidden state를 반복적으로 업데이트하기 위해 GRU를 활용합니다. GRU을 활용하게 되면 임의 객체가 Subject 혹은 Object의 관계인 경우일때의 메세지 정보 모두를 고려할 수 있다는 이점을 갖게 된다고 합니다.
- 그래프 인코더로 출력된 객체 및 서술어의 Hidden state들은 각각 SUM Pooling연산을 통해 최종 Latent 임베딩을 얻어냅니다. 다음 Latent 임베딩은 이후 MLP 디코더를 통해 원핫 레이블 예측결과를 얻어냅니다. 데이터 불균형 문제를 완화하기 위해서 저자들은 Focal Loss 함수를 사용하였습니다.
- 위에서 얻은 두 Latent 임베딩을 기반으로, Metric Space 상에서 동일한 레이블을 갖는 임베딩 사이의 유클리드 거리를 더욱 가깝게 만드는 방향으로 업데이트를 진행합니다. Meta-Embedding은 최종 업데이트된 Latent 임베딩 출력으로 정의됩니다.
- 생성된 Meta-Embedding은 오직 레이블의 정보만을 활용하므로 학습 샘플 개수에 독립적이며, 따라서 적은 빈도수의 샘플에서도 효과적으로 추출이 가능합니다.
- 다음 Meta-Embedding은 입력 포인트 클라우드에 사전 지식으로써 활용되어지며 (Knowledge Injection), 최종 장면 그래프 출력을 위한 가장 유용한 지식을 선택하는 방향으로(Knowledge Selection) 장면 그래프 예측 모델을 학습시킵니다.
B. Knowledge-inspired Scene Graph Prediction Model
- 위에서 최종 업데이트된 Meta-Embedding을 사전 지식으로 활용하여, 해당 장면 그래프 예측 모델은 입력 포인트 클라우드를 기반으로 구성된 장면 그래프의 관계 Triplet을 정확하게 예측하고자 합니다.
- 다음 모델의 핵심은 지식 주입 (Knowledge Injection)과 지식 선택 (Knowledge Selection) 단계입니다.
- 처음부터 Meta-Embedding을 활용하지 않고, 먼저 Multi-Scale PointNet (MS PointNet)을 백본모델로 사용하여 추출한 객체 및 객체 쌍 포인트 클라우드의 특징벡터를 A 과정에서의 동일한 메시지 전달 메커니즘(식 2,3)을 기반으로 업데이트합니다. 다음 결과는 이후 MLP를 통과하여 객체 및 서술어에 대한 분류 확률값을 얻어냅니다.
- 다음 확률값은 A 과정에서 얻어낸 Meta-Embedding과 연산되어 상위 5개의 Meta-Embedding을 선택합니다. 저자들은 선택된 다음 5개의 상위 Meta-Embedding을 사전 지식정보로 활용합니다.
- 실험적 경험을 바탕으로 저자들은 (타협적으로) 5개의 Meta-Embedding을 선택하여 활용하였다고 합니다.
- 객체 및 서술어의 사전 지식(e_meta)은 MS PointNet으로 추출된 포인트 특징(x)과 함께 2개 레이어의 피드포워드 레이어 (Add & Norm)를 통과하여 최종 통합된 hat_x를 얻어냅니다. 다음 과정은 식 8, 9로 공식 정의하였습니다.
Experiment
- 다음은 제안 방법을 통해 예측된 장면 그래프의 정성적 예시를 보여줍니다.
- 잘못 예측된 Negative Object 노드에서 보통 잘못 예측된 Predicate가 출력되었으며, 그 외의 Positive Node에서는 대체로 잘 예측된 Predicate가 출력되었음을 확인할 수 있습니다.
- 관계성 예측 부분을 위한 t-SNE 시각화 결과에서 기존 방법보다 Distinguishable하게 latent 공간을 구별해낼 수 있었습니다.
- 다음을 통해, latent 임베딩에서 해당 사전 지식정보를 더욱 잘 추출해낼 수 있었음을 확인해볼 수 있습니다.
- 정량적 실험결과에서의 평가 기준으로는 장면 그래프 분류 (SGCls) 및 서술어 분류 (PredCls) 결과를 활용하였으며, 평가 지표로는 상위 K%에서의 Recall을 나타내는 R@K와 mean Recall의 mR@K를 사용하였습니다.
- SGCls, PredCls 모두 학습 데이터를 100% 모두 활용하였을 때, Meta-Embedding을 사용한 경우의 결과가 가장 높게 나왔습니다.
- 주목할 부분은, 학습 데이터를 사용하지 않은 경우에서 Meta-Embedding을 사용한 PredCls 결과가 Meta-Embedding을 사용하지 않은 100% 학습 데이터 활용한 결과보다 더 좋았다는 점입니다.
- 기존 방법들보다 Meta-Embedding을 사용한 경우, SOTA 성능을 달성할 수 있었으며, 특히 PredCls에서 그 성능 gap이 더욱 크게 나타난 결과를 확인해볼 수 있습니다.
- 자세한 실험 결과 및 분석은 해당 논문을 참고하시기 바랍니다.
Summary & Comments
- 비전 분야에서 지식 그래프 개념을 잘 활용하고 있다고 생각하는 장면 그래프에 관련한 논문을 소개해드렸습니다.
- 해당 논문은 입력 데이터의 시각적 특징에 크게 의존하여 예측 결과의 혼동성을 야기했던 기존 방법들과 달리, 오로지 데이터 레이블 정보만으로 구축한 사전 지식을 활용함으로써 기존 방법론들의 장면 그래프 예측 성능을 향상시켰다는 점에 의의가 있습니다.
- 사전 지식정보를 인코딩하는 Meta-Embedding의 사용유무에 따라서 예측 결과의 gap이 크게 나타났던 결과적 부분을 통해 예측 모델 학습에 큰 Guidance를 제공할 수 있었던 부분과, t-SNE 시각화 결과를 통하여 Latent 공간 상에서 명시적으로 Object 및 Predicate의 레이블을 distinguishable할 수 있었다는 점도 인상깊었습니다.
- 여전히 다음 도메인 상에서 여전히 풀어나가야 할 한계점이 존재하고 있음을 저자들은 언급하고 있지만, 잘 구축되어진 지식 그래프 활용은 어떤 도메인 불문하고 큰 도움이 될 수 있다는 사실은 변치 않을 것 같습니다.
- LLM 트렌드에 발맞추어 지식 그래프의 역할이 점점 커지고 있는 만큼, 그래프에 대한 관심도 점점 커져서 그래프 붐이 조만간 일어나기를 바라는 마음입니다.
[Contact Info]
Twitter (X): @jhbae1184
Graph Foundation Models
정이태
PaperLink : https://arxiv.org/pdf/2402.02216.pdf
Keywords
graph foundation model , formula for success graph deep learning , graph technique essential challenging and approach.
Foundation model
- Foundation Model 이라는 단어가 인공지능 분야에서 많이 언급되고 있습니다. 컴퓨팅 리소스가 증가함에 따라, 활용할 수 있는 모델 그리고 데이터가 기하급수적으로 증가하고 있는 현상이 그 언급의 원인이지 않을까 싶은데요.
- 제한된 자원을 사용해서 적은 모델 적은 데이터를 최적화하는 트렌드에서 많은 모델 많은 데이터를 사용할 수 있기에 오히려 너무 많은 선택지 때문에 어떤것을 효율적으로 선택해서 사용할지에 최적화 트렌트로 넘어온게 이유라 생각합니다.
- 오늘 논문에서는 기존 오마카세에서 다룬 아키텍쳐 개선 성격이 아닌, 어떻게 Foundation model 을 설계하는게 좋을지에 대한 서베이 성격을 가진 내용을 다룹니다.
- 사내에서 효율적인 Foundation Model 을 설계하고자 하는 니즈가 있으신분들에게 많은 도움이 될 거 같습니다. 단순하게 대용량 데이터 , 인기많은 베이스라인 아키텍쳐가 좋다.라기보다 자연어처리, 컴퓨터비전 분야에서 Foundation model 이 어떤 이유때문에 성공했으며, 그 이유를 그래프 분야에 왜 적용하면 좋을지를 이야기 하기때문에 이해하기 쉽고, 신빙성이 있습니다.
- 정수만 뽑아놓았다고 생각해도 좋을정도로 핵심 내용들이 잘 담겨있습니다. Graph Foundation Model 설계시 투두리스트 측면에서 활용하시는걸 추천드립니다.
- Foundation model 정의를 먼저 내리고 시작하자면, Pre-training model 로부터 knowledge 를 잘 가져오고, 이를 활용하여 down-stream task 에서 domain / task 를 가리지 않고 generalization 성능이 우수한 모델을 의미합니다. 한마디로 말씀드리면, 만능 모델인거죠.
- 이 만능 모델을 만들기 위해서 필수적인 조건은 Vocabulary 인데요. 해당 Foundation model이 가지고 있는 고유 정보 즉 , Knowledge 를 어떻게 잘 설계했느냐가 핵심이라 할 수 있습니다.
- 자연어처리 분야에서는 주어진 문장을 word , phrase 그리고 symbol 로 구분해주고 이해할때vocabulary 를 활용합니다. 컴퓨터비전 분야에서는 이미지를 토큰 형태로 나누어주고, 이 토큰이 vocabulary 에서 어떤 토큰에 속하는지 맵핑해줄때 활용합니다. 그렇다면, Graph 에서는 어떻게 Vocabulary 를 활용할까요?
Graph Data and Graph Foundation model
- Graph Vocabulary 를 이야기하기전, 먼저 그래프 데이터의 장점이자 근본적인 한계에 대해 이야기해보겠습니다. 바로 '연결' 입니다. 무엇과 어떻게 연결되어 있는지가 핵심인 그래프 데이터를 긍정적인 관점 , 부정적인 관점으로 나누어서 이 연결을 해석해 볼 수 있습니다.
- 우선 긍정적인 관점에서 보자면, 연결을 기반으로 정보를 전달 할 수 있기에 정보 전달 부분에서 사용자가 정보 가중치를 임의로 조정을 할 수 있다 라는 것 즉, 정보전달(message passing)을 임의로 설계할 수 있다. 라는 점이 긍정적일 수 있습니다.
- 반대로 부정적인 관점에선 그래프 정보 전달 체계를 임의로 설계하기에 주관이 개입될 수 있습니다. '연결'되어 있는 노드들끼리 정보를 주고받기에 구조에 의존성이 크기에 결국 주관이 긍정적으로 작용할 수 있으나, 부정적으로 작용할 수도 있는거죠. 또한 그래프 내 노드, 엣지를 구분짓기가 어렵습니다.
- 위 Figure 1 그림을 바탕으로 설명드리겠습니다. (v1, v2)와 (v3, v4)는 모두 각각 두 개의 링크를 가지고 있다는 공통점이 있습니다.
- 하지만, (v1, v2)는 좌측의 서브그래프에, (v3, v4)는 우측의 서브그래프에 속해 있어 이를 구분합니다. 우리는 그림과 데이터를 통해 이러한 차이점을 쉽게 파악할 수 있습니다.
- 그러나 컴퓨터에게 (v1, v2)와 (v3, v4)를 임베딩할 정량적 값으로 표현하라고 요청하면, 두 구조가 동일하기 때문에 같은 숫자로 표현될 가능성이 높습니다.
- 이는 구조는 같지만 다른 맥락을 가지고 있다는 것을 표현하기 위해 추가적인 장치가 필요하다는 것을 의미하며, 그래프 데이터의 큰 단점이자 근본적인 한계로 볼 수 있습니다.
- 따라서, 구조는 같지만 다른 맥락을 가지고 있다는 점을 잘 나타내는 장치를 딥러닝 모델에 전달하여 학습시킨다면, 성능을 개선할 수 있는 가능성이 높다고 할 수 있습니다. 이를 '다른 맥락을 잘 대변한다'고 하는데, Graph Foundation Model에서는 이를 Transferability라고 합니다.
- 즉, Foundation Model을 기반으로 다양한 데이터마다의 맥락을 잘 구분하여 무엇이 다른지 표현하는 것입니다. 그리고 이렇게 구분된 정보를 Vocabulary에 체계적으로 쌓아서 적절한 시기에 활용하는 것이 Graph Foundation의 핵심입니다.
Graph Vocabulary 와 Positive / Negative Transferability
- 그렇다면 이 구분을 잘하고 못함을 어떻게 측정할 수 있을까요? 본 논문에서는 Network Analysis , Expressiveness , stability 3가지 측면에서 Graph Task 인 node classification , Link Prediction , Graph Classification 을 위한 Graph Vocabulary 가이드라인을 제시합니다.
- network science 는 패턴을 정량화할 수 있기에 데이터에 대한 대략적인 분포를 확인할 때 활용합니다. transferability 관점에서는 유사한 구조를 가진 그래프들끼리 유사한 특성을 가지고 있을 확률이 높으니 이 분포를 기준으로 transferability 가 positive 하게 작동할지 negative 하게 작동할지를 가늠해보는거죠.
- Expressiveness 는 그래프 내 노드 , 링크들의 고유성을 어떻게 보장할지에 대한 내용입니다. transferability 관점에서보면, 노드 - 엣지 조합들에 따라 그 고유성이 다를테니, 이를 최대한 품질 좋게 확보하여 다양한 패턴들을 vocabulary 형태로 만드는게 핵심입니다.
- 이 때 vocabulary 형태로 변환하는 함수를 다양하게 이렇게 된다면, 결국 유사한 패턴이 들어왔을때 그 패턴에 따라 메타가 지정되어있으니, 추론시에 이 메타를 활용하는거죠.
- stability 는 그래프 데이터를 벡터 형태로 변환할 때, 얼마만큼 데이터 변환을 보장할지 경계를 지정하는게 핵심입니다. Expressiveness 동형사상의 관점을 한 층 더 깊게 생각해서 minor pertubations 까지 고려하는게 핵심입니다.
- transferability 관점에서보면, Expressiveness 에서 그래프 내 섭동관점까지 미세한 제약조건을 추가하다보니 그 만큼 메타들이 다양해지고 그 메타들이 다양해진만큼 다양한 패턴을 추론할 수 있으니 Foundation model 의 핵심인 일반화 측면에서 더욱 성능이 강화될거란 맥락입니다.
추가적으로 고려해야할 Neural scaling law , model, data scaling 그리고 pretext task design
- 이전 섹션에서는 그래프의 핵심 패턴을 어떻게 잘 정량화하는지를 다뤘다면 이번 섹션에서는 그래프 딥러닝 모델 측면에서 데이터와 모델 규모 그리고 task 설계 측면에서 어떻게 개선할 수 있을지를 이야기합니다.
- neural scaling law 가 유효한 상황과 그렇지 않은 상황
- Transferability 에서 말씀드린바와 같이, neural scaling law 는 유사한 구조 분포를 가진 데이터는 결국 유사한 특성을 가진다 라는 발견을 기반으로 추론하기에 일반화시 그 성능이 향상될 수 있음을 알 수 있습니다. 즉, neural scaling law 가 적용할 수 있는 보편적인 상황인거죠.
- 하지만 이 보편적인 상황과 다르게, 사람이 직접 개입하여 그래프를 직접 설계하고 task를 지정할 때 즉, 노드와 링크를 설정할 때 그리고 추론할 label 을 설정할 때 개입한다면 이 공식을 활용하기에는 부적합함을 이야기합니다.
- 예를 들면, OGBN-ARXIV (Hu et al., 2020)과 ARXIV-YEAR (Lim et al., 2021)는 동일한 그래프 정보를 가진 두 개의 노드 분류 데이터셋입니다. 유일한 차이점은 OGBN-ARXIV가 논문 카테고리를 사용하는 반면, ARXIV-YEAR는 출판 연도를 라벨로 사용한다는 것입니다. 이로 인해 동질성과 이질성의 속성이 충돌하게 됩니다 (Mao et al., 2023a).
- Label 데이터가 Scarcity 한 상황을 보완하기 위한 Pretext task design
- 라벨링 데이터가 상대적으로 많이 희소한 경우 이를 어떤 방식으로 접근해서 해결하면 좋을지에 대한 내용입니다. Graph contrastive learning , The generative self-supervised learning , next token prediction 에 대해 이야기하며, 이 3가지 계열 방식들이 왜 성능개선에 도움이 될지에 대해 언급합니다.
- 이외에도 neural scaling law 관점에서 data scaling, heterogeneity, synthetic graph, model scaling 를 다루었습니다. 자세한 내용은 논문 혹은 2월 넷째주 그래프 오마카세에서 유사한 맥락을 더욱 심도있게 이야기한적있어, 참조 링크로 남겨놓겠습니다.
insight
- LLM에 그래프를 활용하면 좋을 때
- LLM의 sequence 기반으로 진행하는 token structural pattern 에 그래프의 holistic 기반 정보까지 전달하는게 핵심입니다. LLM은 transformer 에 기반하여 구현이 되었기에, token 들이 fully connected graph 형태로 학습되었습니다.
- graph 관점을 적용하였다고 하지만 엄밀히 말하면 heterogeneous graph (이종그래프) 에서 노드의 종류만 다를뿐 엣지의 종류가 모두 동일한 형태에서 가중치가 학습되는 형태라고 할 수 있습니다.
- 결국 여기에서 graph는 semantic 관점이 접목되어, 엣지마다 의미론적인 맥락이 반영되어 학습될 수 있다는 점에서 그래프로 보완할 수 있습니다.
- 이외에도 , subgraph 방식을 어떻게 차용하면 좋을지 pre-text task 그리고 아키텍쳐 디자인을 어떻게 하는게 좋을지 , GFM 이 왜 필요한지 와 같은 인사이트가 담겨있으니, 한 번 살펴보시는걸 추천드립니다.
Recap
- Foundation Model 부터 Graph Foundation Model 까지 알아보았습니다. 그래프 데이터에서 어떻게 foundation model 을 기획하고 적용하면 좋을지 그리고 transferability 라는 측면에서 어떻게 하면 그래프를 일반화하는게 좋을지 끝으로 딥러닝 측면에서 model , data scaling 을 어떻게 다루면 될지에 대해 이야기했습니다.
- Foundation Model 을 설계하여 사내에서 활용하고 싶을때, 어느 프로세스로 구축하는지 막막하실분들이 계실텐데요. 그 관점에서 본 논문이 좋은 교보재 가이드라인으로써 활용할 수 있을거라 생각합니다.
[Contact Info]
Gmail : jeongiitae6@gmail.com
Linkedin : https://www.linkedin.com/in/ii-tae-jeong/