3월 셋째주 그래프 오마카세

3월 셋째주 그래프 오마카세

Semantic Segmentation for Point Cloud Scenes via Dilated Graph Feature Aggregation and Pyramid Decoders

AAAI 2022

배지훈

paper link

Keywords

Pointcloud Semantic Segmentation, Sparse-KNN Search, Dilated Graph Convolution, Pyramid Decoder

Introduction

  • 수많은 포인트 클라우드 문제에서 그래프 표현 방법을 활용하는 많은 연구들은 널리 잘 알려진 K-nearest neighbors (KNN) 알고리즘을 많이 활용하고 있습니다.
  • 그래프 신경망의 학습 메커니즘인 메세지 전달 (Message Passing)의 관점에서 생각해본다면, 입력 데이터로부터 표현된 그래프의 각 노드 별 유의미한 이웃 노드를 찾아내는 것이 매우 중요하기 때문에 KNN 알고리즘이 그에 가장 부합하다고 생각할 수 있습니다.
  • 이웃 개수를 선택하는 K 하이퍼파라미터의 결정에 따라 그래프 컨볼루션이 학습하는 이웃 노드의 영역, 곧 Receptive Field의 크기가 정해지는 것이기 때문에 최적의 값을 찾는 것이 중요하다고 말씀드릴 수 있겠습니다. 손수 실험적으로 여러 값들을 넣어보면서 찾아보는 방법도 있으나, 보통 Hyperparameter Searching 방법을 활용하여 자동적으로 데이터에 맞는 최적 K 값을 찾아서 사용합니다.
  • "결정된 하이퍼파라미터 값을 통해 구해진 이웃 노드들이 정말 적합한 이웃이라고 말할 수 있을까?" 라는 자연스러운 질문으로부터 이에 대한 해답을 탐구하는 방법론들 또한 많이 나오고 있으며, 이번주 소개해드릴 오마카세 논문도 이들 중 하나라고 볼 수 있겠습니다.
  • 논문 제목을 보아 핵심 아이디어는 Dilated Convolution의 장점을 활용하면서 Pyramid 형태의 Decoder를 설계하여 중요한 정보들을 중첩시켜서 활용할 것 같습니다. 각 과정은 본 논문의 핵심 아이디어인 DGFA 모듈 및 Pyramid Decoder를 통해 수행되어지며, 자세한 내용은 아래에서 설명드리도록 하겠습니다.

Background

Fig 1. 'Unicity of receptive field' issue (단일한 Receptive field 한계)
  • 위에서 말씀드린 것과 같이, 해당 논문의 저자들은 기존 KNN 방식의 그래프 학습에 대한 한계점을 언급합니다.
  • 다음 한계점은 KNN 알고리즘으로 Static 혹은 Fixed한 연결을 갖는 그래프 표현이 제한적인 Receptive Field의 이웃 노드 영역만을 학습하도록 만들며, 특히 단일한 Receptive Field 만으로는 유사한 공간성 구조(Similar Spatial Structure)를 갖는 인스턴스 사이의 복잡한 패턴을 구별해낼 수 없다는 것을 언급합니다.
  • Fig 1에서, 저자들은 GACNet (Wang et al., 2019)의 분할 결과 예시를 보여주면서, Wall과 Board와 같이 인접한 평면형 객체 (Adjacent Planar objects) 사이의 유사한 공간적 구조 정보를 명확하게 구별하지 못하여 오분류의 결과를 보여줍니다.
  • Fig 1의 아랫부분과 같이, 해당 인스턴스의 Multi-Receptive Field 정보를 기반으로 유사한 구조성을 갖는 인스턴스에 더 많은 정보를 폭넓게 집계하여 모델을 학습시킴으로써 다음 문제를 해결해보자! 가 본 논문의 핵심 아이디어가 되겠습니다.
  • 저자들은 Dilated convolution 연산자를 그래프 컨볼루션 연산에 활용하여 Multi-scale의 Receptive Field를 추출해내고, 다음 결과들을 잘 집계해낼 수 있는 모델을 설계하였습니다. 제안하는 해당 모델은 DGFA-Net 으로 명칭하였습니다.

Methodology

Fig 2. Proposed DGFA-Net Architecture
  • Fig 2에서 보여주는 DGFA-Net 아키텍처는 크게 2가지 단계로 이루어져 있습니다.
    • Hierarchical Graph Generation
      • 3개의 Pooling Layer를 가지는 기존 GACNet 네트워크를 활용하여 계층적 그래프를 얻어냅니다. 다음 과정은 Fig 2(a)의 Encoder-3 블록에 해당합니다.
    • Encoder-Decoder Feature Extraction and Aggregation
      • 본 논문의 아이디어인 Dilated Graph Convolution (DGConv) 기반의 DGFA, Pyramid Decoders가 해당됩니다.
  • 제안하는 아이디어 파트인 Encoder-Decoder Feature Extraction and Aggregation만 살펴보도록 하겠습니다.

Dilated Graph Feature Aggregation (DGFA)

  • 제안하는 DGFA 모듈은 Dilated Graph Convolution (DGConv) 연산을 기반으로 하는 계층적 그래프 추출자(Extractor) 입니다.

Dilated Graph Convolution (DGConv)

Fig 3. DGConv Operator
  • 이름에서 알 수 있듯이 2D image 상에서 연산되는 Dilated Convolution을 그래프 컨볼루션을 확장하였습니다.
  • Fig 3에서 볼 수 있듯이, DGConv는 Target 이웃 개수 (K=8 예시)를 지정한 후, Dilated rate (r=1,2,3 예시)만큼 주변 노드를 건너뛰면서 이웃 노드로 선택합니다.

Dilated Graph Feature Aggregation (DGFA)

  • DGConv 연산을 통하여 선택된 Dilated graph를 입력으로 받는 DGFA 모듈은 multi-scale한 Receptive Field를 출력합니다.
  • DGFA 모듈은 Cascade 구조를 채택하여 dilated rate (r) 값을 다르게 설정하여 다른 해상도 (Resolution)의 Feature들을 뽑아낸 후 Concat + MLP를 통해 Multi-scale의 Receptive Field를 갖는 Feature Map을 출력해냅니다.
DGFA module operation (R : Concatenate, M : MLP)

Pyramid Decoders

Fig 4. DGFA module operation
  • Fig 4에서와 같이, 디코더 구조에서의 차별성은 Up-sampling 과정에서 Encoder의 Feature를 동일한 해상도의 디코더 Feature 뿐만 아니라 다른 해상도를 갖는 Feature와도 Concat 하여, 각 해상도에 대한 분할 결과를 계층적으로 추출해내는 것입니다.
    • Fig 4의 아랫부분을 보시면, 'Upsampling + MLP'의 갈색 화살표를 보시면, 동일한 해상도의 Encoder-Decoder Feature map을 Semantic Segmentation 결과로 뽑아내지만, 다른 해상도의 Feature map (ex. F{3,1} ->F{2,2}, F {2,3}) 또한 활용하여 결과에 포함하는 과정도 있다는 점을 확인할 수 있습니다.
    • 다음 과정은 식 6으로 정의한 연산과정을 통해 진행됩니다.
Pyramid Decoder Operations

Multi-basis Aggregation Loss (MALoss)

  • DGFA-Net의 전체 학습 과정은 MALoss 함수를 통해 진행되어집니다.
Multi-basis Aggregation Loss (MALoss)
  • 식 7에서 L^{sem}은 Semantic Segmentation 결과에 대한 loss, lambda는 다음 loss의 가중치를 결정하는 하이퍼파라미터를 나타냅니다.
  • 구체적으로 L^{sem}은 객체 카테고리 (위 식에서는 0~3)에 대한 confidence score를 나타내는 A와 Pyramid Decoders로부터 출력된 결과 S를 통한 Cross-entropy loss 함수를 활용하였습니다.

Experiment

  • 제안 모델의 성능 검증을 위해, 저자들은 3가지 벤치마크 데이터셋 - S3DIS, ShapeNetPart, Toronto-3D - 을 사용하였으며, 평가 지표로는 mIoU, OA (Overall Accuracy), mACC를 사용하였습니다.\
    • 정량적 평가 결과에서, DGFA-Net은 indoor scene segmentation의 S3DIS와 Part segmentation의 ShapeNetPart 데이터셋에서 KPConv 보다는 좋지 못한 결과를 얻어내었으나, 전체적으로는 baseline 모델로 사용한 GACNet 보다 좋은 분할 결과를 얻어내었습니다.
    • 즉, Multi-Receptive Fields 추출 및 집계 과정을 포함하여 Spatially Similar한 인스턴스도 잘 구별해낼 수 있었던, 저자들의 목표에 부합한 결과를 얻어낼 수 있음을 확인해볼 수 있습니다.
Fig 7. 정성적 평가 결과 - Similar Spatial Structure instance
    • 정성적 결과에서 인상깊었던, DGFA-Net의 인스턴스 별 최종 Feature map Attention 결과를 보면 저자들이 초반에 언급하였던 (e) wall 과 (f) board의 similar spatial structure 인스턴스들을 잘 구분지을 수 있었음을 확인해볼 수 있었습니다.

Summary

  • 본 논문의 저자들은 기존 KNN 기반 fixed한 그래프의 Unicity of receptive field 한계점으로 유사한 공간 구조를 갖는 인스턴스를 구별하지 못하는 문제를, Hierarchical Graph에서 추출한 multi-scale Receptive fields를 Pyramid decoder설계를 통하여 잘 집계해냄으로써 향상된 분할 결과를 얻어내는 DGFA-Net을 제안하였습니다.
  • 제가 기존에 알고있었던 KNN 알고리즘을 대체하는 방법들은 Euclidean Distance-based Neighbor Searching이 아닌 Sphere space로의 mapping을 통한 Radius-based Searching이었으며 다음 방법으로도 상당히 인상적인 결과를 확인해볼 수 있었는데, Receptive field 관점에서 접근한 방법이 재밌어서 가져와보았습니다.
  • 포인트 클라우드의 그래프 표현 방법에서 보편적인 방법에서 벗어나 새로운 인사이트를 찾고 계신 분들에게 다음 논문이 조금이나마 참고가 될 수 있을 것 같습니다.

[Contact Info]

Gmail

LinkedIn

Twitter (X): @jhbae1184


GraphRAG Overview

정이태

  • 이번주는 논문 리뷰가 아닌, GraphRAG 관련 게시물들을 가져왔습니다. 한때 Symbolic AI이야기가 나오며 각광받았던 Knowledge Graph Reasoning 이 이젠 RAG 덕분에 또 한 번 그 빛을 발하는 기회를 얻게 되었네요.
  • GraphRAG는 Knowledge graph indexing 과 Holistic semantic embedding 를 통해 factual & structural 정보를 활용해 Retrieval 할 수 있다는 점이 가장 큰 이점입니다.
  • 또한, Retrieval 에서 정보들을 fetching 하는 주체인 'knowledge base'를 설계할 때에도, 지식베이스 관점을 접목하여 회사 조직의 각 데이터 사일로마다 특정 데이터를 보는 Semantic 을 지식 그래프 형태로 담을 수 있기에 데이터 통합 관점에서도 용이하다라는 측면으로 많이들 찾고 있습니다.
  • 하지만 어떻게 어디에 쓰고 , 어디서부터 접근해야하는지 왜 써야하는지에 대해 산업 측면에서는 아직까지는 낯익지 않다 판단하여, 제가 처음 개념 잡을때 굉장히 많은 도움을 받았던 게시물들을 가져왔으니, 여러분들 또한 좋은 교보재로 활용하시면 좋겠다 하는 마음으로 이번주 오마카세 상에 올려봅니다.
From RAG to GraphRAG , What is the GraphRAG and why i use it? - graphwoody
RAG using structured data: Overview & important questions
An overview of the area of retrieval augmented generation (RAG) using structured data
RAG using unstructured data and the role of knowledge graphs
Uncovering the design space of RAG systems that use unstructured data and future work directions that are important.
The Limitations of Cosine Similarity and the Case for Knowledge Graphs in AI
As artificial intelligence (AI) systems become increasingly integrated into various aspects of our daily lives, it has become crucial to develop a deep understanding of the underlying techniques and…
Knowledge Graphs for RAG
Learn the skills to start or advance your AI career | World-class education | Hands-on training | Collaborative community of peers and mentors

Subscribe for daily recipes. No spam, just food.