25년 12월 2주차 그래프 오마카세
Learning to Retrieve and Reason on Knowledge Graph through Active Self-Reflection

- 그래프를 사랑하는 저희들이 바라봤던 2024년을 'RAG(검색 증강 생성)의 대중화' 시작점이라 생각해본다면, 2025년 현재 우리가 목격하고 있는 트렌드는 단연 'Agentic AI'와 'GraphRAG'의 결합으로 볼 수 있을 것 같습니다.
- 단순히 DB에서 유사한 문서를 찾아와 답하던 1세대 RAG(Naive RAG)는 이제 한계에 봉착했습니다. 복잡한 질문에 대해 엉뚱한 문서를 가져오거나, 가져온 정보를 잘못 해석하는 문제가 여전히 해결되지 않았기 때문입니다.
- 이러한 흐름 속에서, 벡터 기반의 검색이 놓쳤던 맥락과 관계를 파악하는 데 지식 그래프가 필수적이라는 사실이 재증명되고 있기 때문에, AI 연구의 관심 방향은 다시 지식 그래프로 향하고 있습니다.
- 하지만 엔터프라이즈 현장에서 기존의 지식 그래프 활용 방식은 단순히 외부에서 정보를 찾아와서 답하기에 집중하는 수동적인 부분에 머무르고 있었습니다. 이제는 단순 검색을 넘어, AI가 스스로 "지금 검색이 필요한 타이밍인가? (Active Retrieval)" 혹은 "이 정보가 논리적으로 타당한가? (Self-Correction)"를 다시 생각하면서 더욱 정확하게 올바른 정보를 판단할 수 있는 능동적 추론 능력을 요구하고 있습니다.
- 이번 주 오마카세에서 전달해드릴 논문이 제안하는 ARG(Active Self-Reflection Graph reasoning) 기법은 바로 이 지점에서 출발합니다. 이 연구는 단순히 정보를 긁어오는 것을 넘어, AI에게 Self-Reflection(자기 성찰)이라는 인간 고유의 사고 과정을 이식하여 스스로 판단하는 능력을 갖추게 하는 방법에 대해 고민하였습니다.
- 위 영상은 논문에서 다루는 Self-Reflection 개념을 RAG 파이프라인에 어떻게 적용하는지 LangGraph를 통해 실전적으로 설명하고 있어, ARG의 기본 원리를 이해하는 데 큰 도움이 될 것으로 생각되어 같이 공유드려봅니다. 참고해보시면 많은 도움이 되실 것 같습니다.
- 마치 신중한 연구자가 자료를 찾을 때마다 "이 자료가 맞나?", "이 논리가 타당한가?"를 끊임없이 되묻는 것과 같이, 스스로 판단할 수 있는 능력을 부여하기 위해 제안하는 ARG의 핵심은 LLM이 답변을 생성하는 도중, 4번의 체크포인트들을 거치게 만드는 것입니다. 다음 과정은 아래의 4가지 성찰 토큰(Reflection Tokens)을 통해 이루어집니다.
- 검색 판단 (Retrieval Token, "지금 검색해야 할까?") : LLM은 이미 알고 있는 내용도 불필요하게 검색하거나, 반대로 모르는 내용을 아는 척하며 넘어갔습니다. ARG 기법은 추론의 각 단계에서 외부 지식이 필요한지 스스로 판단합니다. 필요할 때만 지식 그래프(KG)에 접근하므로 효율적입니다.
- 관련성 평가 (Relevance Token, "이 정보가 진짜 관계가 있나?") : 검색된 정보가 질문과 미묘하게 다르거나 동명이인인 경우에도 억지로 연결했던 문제가 존재했습니다. 다음을 가져온 정보가 현재 풀고 있는 문제와 맥락적으로 관련이 있는지 점수를 매겨(Scoring) 평가합니다.
- 합리성 검증 (Rationality Token, "논리적 비약은 없나?") : A에서 B로, B에서 C로 넘어가는 추론 과정에서 논리적 비약이 발생해도 감지하지 못했습니다. 이를 현재의 추론 단계가 이전 단계와 논리적으로 매끄럽게 연결되는지 검증하여 말이 안 되는 경로는 바로 Pruning합니다.
- 유용성 판단 (Utility Token, "답변에 쓸모가 있나?") : 맞는 말이긴 하지만, 질문에 대한 답을 주는 데는 쓸모없는 TMI 정보가 포함되곤 했습니다. ARG는 최종 답변을 도출하는 데 기여하는 핵심 정보인지를 판단하여 답변의 품질을 높입니다.
- 이 4가지 토큰들이 단순히 '맞다 또는 아니다'를 가리는 결과적 역할만을 담당하는 것을 피하기 위해 새로운 추론 트리(Reasoning Tree)를 구성합니다. 이것은 여러 갈래의 생각을 펼쳐놓고, 앞서 말한 토큰들을 사용해 각 경로를 비판적으로 검토합니다. 그로부터 여러 후보 경로 중 타당하지 않은 정보는 걸러내고, 가장 점수가 높은 타당한 경로만을 따라가면서 최종 답변을 만듭니다.
- 어떤 경로로 생각을 발전시켰는지 명확한 근거를 제시하여 그 과정을 명시적으로 확인할 수 있는 추론 과정의 투명성을 확보함으로써, 타 모델보다 신뢰성이 뛰어납니다.
- ARG의 성능을 검증하기 위해 대표적인 지식 기반 질의응답(KBQA) 벤치마크인 WebQSP(WebQuestionsSP)와 CWQ(ComplexWebQuestions) 데이터셋을 사용하여 실험을 진행했습니다.
- 실험 결과, 단순한 사실을 묻는 질문보다, 여러 단계의 추론이 필요한 멀티 홉 도메인에서 ARG의 강점을 확인해볼 수 있습니다.
- 기존의 최신 모델인 ToG(Think-on-Graph)나 RoG(Reasoning-on-Graph)와 비교했을 때, ARG는 주요 지표(Hits@1, Exact Match)에서 일관되게 최고 성능을 달성했습니다. 이는 ARG가 단순히 정보를 많이 찾는 게 아니라, 복잡한 질문의 의도를 파악하고 올바른 경로를 찾아가는 능력이 탁월함을 증명합니다.
- 또한 Retrieval token 덕분에 불필요한 지식 그래프 탐색 횟수를 획기적으로 줄임으로써 무지성 검색으로 인한 노이즈 데이터 유입이 줄어들어, 답변의 정확도도 함께 올라갔습니다. 이는 기업 입장에서 API 호출 비용과 컴퓨팅 리소스를 절감할 수 있는 효율성을 보여줍니다.
- 가장 주목할 만한 성과는 신뢰성입니다. 추론 과정에서 Rationality Token이 논리적 오류를 감지하면, "이 추론은 틀렸으므로 다시 생각해보자."라는 과정이 내재되어 있기 때문에, 즉시 해당 경로를 삭제하고 다시 생각하게 됩니다. 이러한 프로세스의 반복은 대부분의 결과만 던져주는 블랙박스 모델에서 벗어나 결과에 대한 신뢰도를 높혔고, 그럴싸하지만 틀린 답변을 내놓는 환각 현상도 현저히 감소시켰음을 보여줍니다.
- 단순히 외부 지식을 연결(Connection)하는 것을 넘어, 사람의 사고 방식과 유사하게 끊임없이 스스로 반문하고 검증할 수 있는 능력이 우리가 AI에게 기대할 수 있는 지능이 될 수 있을 것입니다.
- 흔히 완벽한 AI는 더 많은 데이터를 쏟아부어서 광범위하게 학습된 것으로 생각할 수 있겠지만, 해당 논문에서는 오히려 모르면 스스로 검색하고, 틀린 것 같으면 잠시 멈춰서 다시 생각하는 시간을 주는 과정이 좋은 해법이 될 수 있음을 시사하고 있습니다.
- GraphRAG와 Agentic AI의 발전 흐름 속에서, 비용은 줄이고 신뢰는 높이는 이러한 능동적 추론 기술은 앞으로의 발전 가능성을 열어두고 있습니다. 이번 오마카세 내용을 통해 독자 분들께도 그 가능성을 엿볼 수 있는 좋은 기회가 되셨길 바랍니다.
[Contact Info]
Gmail: jhbae1184@akane.waseda.jp
Twitter (X): @jhbae1184
