25년 2월 1주차 그래프 오마카세
DeepSeek-R1 Primer
link : https://aman.ai/primers/ai/deepseek-R1/
- 딥시크에 대한 이야기로 가득합니다. 최근 정말 혁신적인 아키텍처가 나왔죠.다들 아실만한 내용이라 생각합니다. 챗지피티 등장 이후 비슷한 AI계의 신선한 충격을 줄 만한 혁신적인 아키텍처의 등장이라는 글들이 보이고 있습니다.
- 저도 스케일링 법칙을 깨버리고 저비용으로 o1모델과 견줄만한 성능을 보이는 모델이 나왔다는 이야기를 처음 듣고 약간 반신반의했습니다. 하지만 오픈소스화를 통해 그 누구나 접근 가능하고 확인할 수 있게 하여 수많은 연구자들로 하여금 모델 검증 및 수정 그리고 관련 추가 연구들이 계속 나오면서 그 의심을 크게 감소시킨 듯 싶습니다.
- 두서가 조금 길었습니다. 이 트렌드를 오마카세에 안 담을 수가 없을 것 같아서, 어떤 내용을 담아볼까 생각하며 관련 게시글들을 찾아 읽어보다가 딥시크 아키텍처 및 FP8 Quantization, SFT, GRPO 등 핵심 측면에 관련한 깔끔한 이론적 요약을 모아준 글을 발견하여 공유해드리고자 합니다.
- 한번 알아두면 유용한 내용들이라 생각하기에 (자세하게 파고들진 않을 것 같지만) 저도 저장해두고 시간남을 때 마다 가볍게 읽어보려고 하고 있습니다.
- 추가로 참고하기 좋은 링크들도 아래에 남겨드리겠습니다.
Bite: How Deepseek R1 was trained
5 Minute Read on how Deepseek R1 was trained using Group Relative Policy Optimization (GRPO) and RL-focused multi-stage training approach.

DeepSeek Lecture (1/28)
Computer Vision - Spring 2025
Discrete Neural Algorithmic Reasoning
Paper link: https://www.arxiv.org/abs/2402.11628
Official Code: https://github.com/yandex-research/dnar
Blog: https://research.yandex.com/blog/discrete-neural-algorithmic-reasoning

- 신경 알고리즘 추론 (Neural Algorithmic Reasoning, NAR)은 신경망의 학습 능력과 알고리즘의 논리적 구조를 결합하여, 복잡한 문제를 효율적으로 해결할 수 있는 강력한 기술로서 정의되어집니다.
- 알고리즘적 접근법으로 해결 가능한 문제의 명확한 정의를 기반으로 각 알고리즘 단계를 순차적으로 신경망을 통해 학습하고, 학습된 논리적 알고리즘 사고를 가진 신경망으로부터 추론 문제를 실시 및 검증합니다. 주로 순차적 결정 문제나 복잡한 추론 문제를 해결하기 위함에 있습니다.
- 다음 논문에서는 '일반화 가능하고 해석 가능한' 그래프 알고리즘 (BFS, DFS, Dijkstra 등) 해결을 위한 GNN 추론기 설계에 초점을 맞춥니다. 어텐션 기반 GNN부터 시작하여 일반화 오류의 이유를 탐색하고, 특징정보 이산화 (Feature discretization), 하드 어텐션 (Hard attention) 및 이산 & 연속 데이터 흐름 분리 (Discrete & continuous data-flow seperation) 등과 같은 여러가지 구조적 수정방안을 제안합니다.
- Feature discretization : 신경망 모델이 데이터에서 복잡하고 중복된 종속성을 사용하기 못하게 함으로써 과적합 방지 및 계산 효율성을 향상시킬 수 있습니다.
- Hard attention : 어텐션 가중치가 더 큰 그래프에 어닐링(annealing)되지 않도록 유도하기 위해 각 노드가 받을 수 있는 메세지 세트를 한 노드에서만 받도록 제한하는 역할을 수행합니다.
- Discrete & continuous data-flow seperation : 대부분의 알고리즘 문제는 연속적이거나 무한한 입력으로 작동하기 때문에 특징 벡터 이산화 과정에 따른 연속적 데이터 정보를 잃지 않기 위한 보완책입니다.
- 하드 어텐션으로부터 모든 가능한 조합을 직접 평가할 수 있으며, 데이터 흐름 분리 프로세스를 통한 멀티태스크 방식으로 모든 그래프 알고리즘에 제안 방식의 추론기가 완벽하게 대응할 수 있음을 언급합니다.
- 제안된 아키텍처 선택을 통해 모든 테스트 데이터에 대해 학습된 알고리즘의 정확성을 증명하고 모든 그래프 크기에 대해 모델이 원하는 알고리즘을 반영하는 사실을 실험을 통해 보여줍니다. 자세한 설명은 위의 저자 블로그 및 논문 링크를 통해 확인해보실 수 있습니다.
Recommended ICLR 2025 Graph and Geometric DL papers
- 4월 24~28일 싱가포르에서 열리는 ICLR 2025에 제출된 그래프 논문들 중 괜찮은 논문들 (읽어보려고 했던) 리스트업한 것을 공유드리면서 이번 주 오마카세를 마무리하고자합니다.
- 세가지 흥미로운 주제로 나누어 개인적으로 읽어보시길 권하는 논문들이니 참고하시어 골라 맛보시면 좋을 것 같습니다.
- Graph Foundation Models:
- Graph Generative Models:
- Graph Theory :
[Contact Info]
Gmail: jhbae1184@akane.waseda.jp
Twitter (X): @jhbae1184