25년 11월 5주차 그래프 오마카세

Why Ontologies are Key for Data Governance in the LLM Era?

Reference Blog : https://medium.com/timbr-ai

  • 최근 LLM 도입을 검토하는 많은 기업 사이에서 온톨로지(Ontology)가 뜨거운 화두로 떠오르고 있습니다. 다들 잘 아시다시피, 온톨로지란 쉽게 말해 데이터 간의 관계와 의미를 정의하는 지도로 받아들일 수 있습니다. 단순히 데이터를 저장하는 것을 넘어, '서울은 한국의 수도다'와 같이 개념 간의 맥락을 컴퓨터가 이해할 수 있게 구조화하는 것입니다.
  • 과거 학술적 개념으로만 여겨졌던 온톨로지가 왜 지금, LLM 시대의 필수 기술로 재조명받고 있을까요? 이번 주 그래프 오마카세는 온톨로지가 주목받는 배경을 가볍게 짚어보고, LLM 시대에 데이터 거버넌스의 새로운 핵심 열쇠로 떠오르고 있는 온톨로지에 대해 다룬 Timbr.ai의 최신 블로그(medium) 글을 기반으로 전달해 드리고자 합니다.
    • 홈페이지 링크 및 공유해드린 유튜브 동영상 등을 통해 더욱 자세한 정보를 확인해보실 수 있습니다. 다음 유튜브 영상은 Timbr.ai 플랫폼이 어떻게 기존 데이터베이스를 SQL만으로 의미론적인 지식 그래프(Semantic KG)로 변환하여 데이터 거버넌스와 분석 효율을 높이는지 데모를 보여줍니다.
Credit : timbr.ai blog (https://timbr.ai/blog/why-sql-ontologies-make-genai-actually-work/)
  • 최근 기업들이 온톨로지에 관심을 갖는 이유를 크게 세 가지로 나누어 볼 수 있습니다.
    • LLM은 Hallucination 현상으로 인해 사실 관계를 잘못 짚을 수 있습니다. 기업 내부 데이터를 검색해서 답변하는 RAG 기술을 사용할 때, 단순 키워드 매칭만으로는 한계가 있습니다. 온톨로지를 통해 구축된 지식 그래프는 데이터 간의 관계 정보를 함께 제공하여 AI가 정확한 문맥을 파악하도록 돕습니다.
    • 기업의 다양한 물리적인 데이터들을 한곳에 모으는 (ETL) 작업은 엄청난 비용이 듭니다. 온톨로지는 데이터를 물리적으로 옮기지 않고도, 의미론적 가상 레이어를 씌워 논리적으로 통합할 수 있게 해줍니다.
    • 데이터베이스 테이블 이름은 AI에게 아무런 의미를 주지 못합니다. 온톨로지는 이를 일종의 비즈니스 개념으로 정의해주어, 현업자들의 질문에 대한 정확한 답변과 해당 데이터를 찾아내는 Semantic Contract 역할로써 도움을 줄 수 있습니다.
  • 많은 기업이 LLM을 도입할 때, 프롬프트 엔지니어링이나 벡터 데이터베이스 구축에 집중하곤 합니다. 하지만 성공적인 Enterprise AI의 진짜 걸림돌은 바로 데이터 거버넌스임을 밝힙니다.
    • 기존의 거버넌스 방식은 사람이 이해하도록 설계되었지 AI가 이해하도록 설계되지 않았기 때문에, 모델이 내놓는 답변의 신뢰성은 데이터의 정의, 출처, 권한, 비즈니스 규칙에 크게 달려 있습니다.
  • 이러한 흐름 속에서 주목받는 기업이 바로 Timbr.ai입니다. Timbr.ai는 복잡한 전용 언어 대신, 데이터 분석가들에게 익숙한 표준 SQL만으로도 기존 데이터베이스 위에 온톨로지를 구축하는 지식 그래프 플랫폼을 제공합니다. ​​​기업이 기존 인프라를 그대로 유지하면서 AI를 위한 데이터 환경을 구축할 수 있는 가장 현실적인 대안으로 평가받고 있습니다.

현재 데이터 거버넌스가 직면한 문제들

  • Timbr.ai의 최신 블로그 글은 이 문제를 해결할 열쇠로 온톨로지를 지목합니다.
  • LLM이 기업 데이터를 검색할 때, 모델은 데이터 뒤에 숨겨진 규칙, 보안 정책 등 수십년간 누적되어 온 맥락 정보를 알지 못합니다. 이로 인해 다음과 같은 위험이 발생할 수 있습니다.
    • 권한이 없는 민감한 데이터의 노출
    • 업데이트되지 않는 구버전 정의의 지속적인 사용
    • 일관성 없는 답변 생성
    • 파편화된 솔루션의 높은 관리 비용과 시스템 간 불일치 문제 야기
  • LLM이 기업 데이터를 안전하고 신뢰성 있게 사용하려면, 데이터의 의미와 규칙을 하나의 통합된 레이어에서 관리해야 할 필요성을 강조합니다.이러한 관점에서 온톨로지는 AI 시대의 데이터 거버넌스를 위한 필수적인 인프라로 충분히 고려될 수 있음을 언급합니다.

게임 체인저로서의 SQL 기반 온톨로지

Credit : timbr.ai blog (https://timbr.ai/blog/why-sql-ontologies-make-genai-actually-work/)
  • Timbr.ai가 강조하는 SQL 기반 온톨로지는 아래의 강력한 이점을 제공합니다.
    • 기존의 시멘틱 웹 기술은 강력하지만 기업 환경에 통합하기 어려웠습니다. 하지만 SQL 온톨로지는 데이터 엔지니어들에게 익숙한 SQL을 사용하면서도, 비즈니스 로직과 관계를 우선으로 다룰 수 있게 해줍니다.
    • 데이터를 개념(Concept)으로 정의합니다. 예를 들어 고객이라는 개념을 한 번 정의해 두면, 마케팅팀의 AI든 영업팀의 AI든 동일한 정의를 참조하게 됩니다.
    • 거버넌스 규칙을 각기 다른 물리적 시스템(Snowflake, Databricks 등)마다 따로 설정하는 대신, 온톨로지 레이어에서 한 번만 정의하면 됩니다.
    • LLM이 데이터를 검색할 때 온톨로지는 허용된 데이터, 올바른 계보, 공식적인 정의만을 참조하도록 강제합니다. 이는 단순한 RAG보다 훨씬 더 정교한 제어를 가능하게 합니다.
    • 데이터 소스가 변경되거나 새로운 지표가 생겨도, 온톨로지 레이어만 수정하면 됩니다. 하위 시스템 전체를 뜯어고칠 필요가 없어 운영 효율이 비약적으로 상승합니다.
  • 이제 AI 경쟁력의 핵심은 '누가 더 좋은 모델을 쓰느냐'에서 '누가 더 기업의 신뢰할 수 있는 데이터를 잘 이해하고 관리하느냐'로 이동하고 있습니다. Timbr.ai가 제시한 온톨로지 기반 전략이 독자 여러분들의 조직 내 데이터 거버넌스와 AI 도입을 이끌어가는 데 의미 있는 참고가 되기를 바랍니다.

[Contact Info]

Gmail: jhbae1184@akane.waseda.jp

Twitter (X): @jhbae1184

LinkedIn

Read more