25년 11월 5주차 그래프 오마카세
Why Ontologies are Key for Data Governance in the LLM Era?
Reference Blog : https://medium.com/timbr-ai
- 최근 LLM 도입을 검토하는 많은 기업 사이에서 온톨로지(Ontology)가 뜨거운 화두로 떠오르고 있습니다. 다들 잘 아시다시피, 온톨로지란 쉽게 말해 데이터 간의 관계와 의미를 정의하는 지도로 받아들일 수 있습니다. 단순히 데이터를 저장하는 것을 넘어, '서울은 한국의 수도다'와 같이 개념 간의 맥락을 컴퓨터가 이해할 수 있게 구조화하는 것입니다.
- 과거 학술적 개념으로만 여겨졌던 온톨로지가 왜 지금, LLM 시대의 필수 기술로 재조명받고 있을까요? 이번 주 그래프 오마카세는 온톨로지가 주목받는 배경을 가볍게 짚어보고, LLM 시대에 데이터 거버넌스의 새로운 핵심 열쇠로 떠오르고 있는 온톨로지에 대해 다룬 Timbr.ai의 최신 블로그(medium) 글을 기반으로 전달해 드리고자 합니다.
- 홈페이지 링크 및 공유해드린 유튜브 동영상 등을 통해 더욱 자세한 정보를 확인해보실 수 있습니다. 다음 유튜브 영상은 Timbr.ai 플랫폼이 어떻게 기존 데이터베이스를 SQL만으로 의미론적인 지식 그래프(Semantic KG)로 변환하여 데이터 거버넌스와 분석 효율을 높이는지 데모를 보여줍니다.

- 최근 기업들이 온톨로지에 관심을 갖는 이유를 크게 세 가지로 나누어 볼 수 있습니다.
- LLM은 Hallucination 현상으로 인해 사실 관계를 잘못 짚을 수 있습니다. 기업 내부 데이터를 검색해서 답변하는 RAG 기술을 사용할 때, 단순 키워드 매칭만으로는 한계가 있습니다. 온톨로지를 통해 구축된 지식 그래프는 데이터 간의 관계 정보를 함께 제공하여 AI가 정확한 문맥을 파악하도록 돕습니다.
- 기업의 다양한 물리적인 데이터들을 한곳에 모으는 (ETL) 작업은 엄청난 비용이 듭니다. 온톨로지는 데이터를 물리적으로 옮기지 않고도, 의미론적 가상 레이어를 씌워 논리적으로 통합할 수 있게 해줍니다.
- 데이터베이스 테이블 이름은 AI에게 아무런 의미를 주지 못합니다. 온톨로지는 이를 일종의 비즈니스 개념으로 정의해주어, 현업자들의 질문에 대한 정확한 답변과 해당 데이터를 찾아내는 Semantic Contract 역할로써 도움을 줄 수 있습니다.
- 많은 기업이 LLM을 도입할 때, 프롬프트 엔지니어링이나 벡터 데이터베이스 구축에 집중하곤 합니다. 하지만 성공적인 Enterprise AI의 진짜 걸림돌은 바로 데이터 거버넌스임을 밝힙니다.
- 기존의 거버넌스 방식은 사람이 이해하도록 설계되었지 AI가 이해하도록 설계되지 않았기 때문에, 모델이 내놓는 답변의 신뢰성은 데이터의 정의, 출처, 권한, 비즈니스 규칙에 크게 달려 있습니다.
- 이러한 흐름 속에서 주목받는 기업이 바로 Timbr.ai입니다. Timbr.ai는 복잡한 전용 언어 대신, 데이터 분석가들에게 익숙한 표준 SQL만으로도 기존 데이터베이스 위에 온톨로지를 구축하는 지식 그래프 플랫폼을 제공합니다. 기업이 기존 인프라를 그대로 유지하면서 AI를 위한 데이터 환경을 구축할 수 있는 가장 현실적인 대안으로 평가받고 있습니다.
현재 데이터 거버넌스가 직면한 문제들
- Timbr.ai의 최신 블로그 글은 이 문제를 해결할 열쇠로 온톨로지를 지목합니다.
- LLM이 기업 데이터를 검색할 때, 모델은 데이터 뒤에 숨겨진 규칙, 보안 정책 등 수십년간 누적되어 온 맥락 정보를 알지 못합니다. 이로 인해 다음과 같은 위험이 발생할 수 있습니다.
- 권한이 없는 민감한 데이터의 노출
- 업데이트되지 않는 구버전 정의의 지속적인 사용
- 일관성 없는 답변 생성
- 파편화된 솔루션의 높은 관리 비용과 시스템 간 불일치 문제 야기
- LLM이 기업 데이터를 안전하고 신뢰성 있게 사용하려면, 데이터의 의미와 규칙을 하나의 통합된 레이어에서 관리해야 할 필요성을 강조합니다.이러한 관점에서 온톨로지는 AI 시대의 데이터 거버넌스를 위한 필수적인 인프라로 충분히 고려될 수 있음을 언급합니다.
게임 체인저로서의 SQL 기반 온톨로지

- Timbr.ai가 강조하는 SQL 기반 온톨로지는 아래의 강력한 이점을 제공합니다.
- 기존의 시멘틱 웹 기술은 강력하지만 기업 환경에 통합하기 어려웠습니다. 하지만 SQL 온톨로지는 데이터 엔지니어들에게 익숙한 SQL을 사용하면서도, 비즈니스 로직과 관계를 우선으로 다룰 수 있게 해줍니다.
- 데이터를 개념(Concept)으로 정의합니다. 예를 들어 고객이라는 개념을 한 번 정의해 두면, 마케팅팀의 AI든 영업팀의 AI든 동일한 정의를 참조하게 됩니다.
- 거버넌스 규칙을 각기 다른 물리적 시스템(Snowflake, Databricks 등)마다 따로 설정하는 대신, 온톨로지 레이어에서 한 번만 정의하면 됩니다.
- LLM이 데이터를 검색할 때 온톨로지는 허용된 데이터, 올바른 계보, 공식적인 정의만을 참조하도록 강제합니다. 이는 단순한 RAG보다 훨씬 더 정교한 제어를 가능하게 합니다.
- 데이터 소스가 변경되거나 새로운 지표가 생겨도, 온톨로지 레이어만 수정하면 됩니다. 하위 시스템 전체를 뜯어고칠 필요가 없어 운영 효율이 비약적으로 상승합니다.
- 이제 AI 경쟁력의 핵심은 '누가 더 좋은 모델을 쓰느냐'에서 '누가 더 기업의 신뢰할 수 있는 데이터를 잘 이해하고 관리하느냐'로 이동하고 있습니다. Timbr.ai가 제시한 온톨로지 기반 전략이 독자 여러분들의 조직 내 데이터 거버넌스와 AI 도입을 이끌어가는 데 의미 있는 참고가 되기를 바랍니다.
[Contact Info]
Gmail: jhbae1184@akane.waseda.jp
Twitter (X): @jhbae1184