온톨로지 구축 실전: 방법론에서 유즈케이스까지
솔트룩스 20년 현장 경험으로 본 온톨로지 설계, 엔진, 그리고 산업 적용 사례
솔트룩스가 주최한 '에이전틱 AI, 온톨로지로 완성되다' 세미나에서 정용일 상무의 발표를 정리했다. 솔트룩스에서 20년 넘게 온톨로지 사업을 담당해온 실무자의 시각에서, 온톨로지를 실제로 구축하는 방법론과 엔진, 그리고 국방부터 금융까지 산업 현장에 적용한 사례들을 다뤘다.
온톨로지 설계 방법론: 탑다운, 바텀업, 그리고 미들아웃
온톨로지를 설계할 때 가장 먼저 부딪히는 질문은 "어떻게 클래스를 정의할 것인가"다. 학계에서는 Ontology 101(스탠포드 대학)이나 On-To-Knowledge 같은 개발 방법론이 오래전부터 존재해왔다. 이 방법론들의 공통점은 명확하다. 문제를 먼저 정의하고, 달성 목표를 설정한 뒤, 그 목표를 달성하기 위해 어떤 데이터를 활용할 것인지 조사하고, 그 다음에 온톨로지 모델을 개발하는 순서를 따른다.
클래스를 정의하는 접근법은 크게 세 가지가 있다. 탑다운 방식은 가장 높은 상위 개념부터 시작해서 하위로 내려가는 방법인데, 도메인에 대한 지식이 충분하지 않으면 적용하기 어렵다. 바텀업 방식은 고객이 가진 문서에서 개념들을 추출해서 모아 계층 구조를 만드는 방법이지만, 데이터가 너무 많으면 개념을 다 뽑아내기가 현실적으로 어렵다. 그래서 실무에서 가장 많이 쓰이는 것이 미들아웃 방식이다. 중간 레벨의 개념을 먼저 도출한 뒤 상위로 올라가거나 하위로 확장하는 접근법이다.
한국에서는 NIA(한국정보화진흥원)에서 정부 3.0 시절 공공 데이터 개방을 위해 만든 '링크드 데이터 구축 공정 가이드'가 대표적인 방법론이다. 솔트룩스 자체적으로는 SBM5(Semantic Business Methodology 5단계)라는 방법론을 운용하고 있다. 서비스 기획, 상세 서비스 기획, 지식도 개발, 시스템 개발, 시스템 운영 관리의 5단계로 구성되어 있고, 각 단계별로 수행해야 할 태스크와 산출물이 정의되어 있다. 프로젝트마다 이 방법론을 커스터마이징해서 적용한다.
DB에서 온톨로지로: 데이터 변환과 저장 체계
실제 온톨로지 구축 과정은 의외로 단순한 구조를 따른다. 기업이 가진 데이터는 대부분 DB, 엑셀, 텍스트 형태다. 온톨로지 모델이 설계되어 있다는 전제 하에, 테이블의 필드 정보와 온톨로지 스키마를 매핑한다. 매핑 규칙이 정의되면 DB로부터 데이터를 가져와 자동으로 온톨로지 인스턴스를 생성하고, W3C 표준에 맞는 RDF 포맷으로 변환한다.
변환된 온톨로지를 저장하고 활용하려면 전용 엔진이 필요하다. 솔트룩스는 '루시아 온톨로지'라는 제품명으로 이 엔진을 제공하고 있다. 데이터 변환 엔진은 DB 데이터를 온톨로지 스키마와 매핑해서 인스턴스를 생성하는 역할을 하고, 트리플 스토어 엔진은 생성된 온톨로지를 저장하고 추론하고 질의하는 기능을 담당한다. 온톨로지 관리 도구를 통해 로딩, 시각화, 질의가 가능하며, 구글 차트나 오픈스트리트맵 같은 외부 서비스와도 연동된다.
추론 기능도 중요한 부분이다. 온톨로지 언어별로(RDF, RDFS, OWL, OWL2) 지원하는 액시엄의 범위가 다르기 때문에, 환경에 따라 선택적으로 사용할 수 있도록 최적화되어 있다. 표준 추론 외에도 사용자가 정의한 규칙 기반 추론을 지원한다. 삼단논법과 유사한 구조로 조건을 정의하면 결과를 자동으로 도출하는 방식이다. 위치 정보를 가진 엔티티의 경우 GeoSPARQL을 활용해서 특정 좌표 반경 내의 객체를 검색하는 것도 가능하다.
국방: 상황 온톨로지와 다출처 정보 융합
국방 분야에서 솔트룩스가 수행한 대표적 사업은 SOSA(복합 체계 분석) 사업이다. 다양한 출처에서 수집된 첩보를 분석하고, 적 활동에 대한 징후를 식별하며, 의사결정을 지원하는 것이 목적이었다. PMESII 체계 관리와 EBO 수행 지원을 위한 전략 정보 생산 및 작전 계획 시각화 기술을 개발했다. 비정형 데이터 분석, 온톨로지 기반 지식 모델링, 추론, 공간 정보 시각화 등의 기능을 포함했다.
실제 구현된 시스템에서는 수집된 첩보로부터 다양한 엔티티(무기, 부대, 인물)의 관계를 네트워크로 시각화하고, 위치 정보가 있는 자산의 이동을 지도 위에 표시했다. 당시에는 LLM이 없었기 때문에, 분석관이 직접 노드 간 관계와 속성을 입력하고 관리하는 방식으로 운영했다. 북한 관련 인물 정보의 네트워크 분석, 시계열 분석을 통한 활동 패턴 파악, 종합 상황판을 통한 의사결정 지원이 핵심 기능이었다.
또 다른 국방 사례는 다출처 정보 융합 사업이다. 다양한 수집처에서 의미 있는 첩보를 추출하고, 특기 사항을 평가하고, 징후를 식별하는 것이 목적이었다. 온톨로지 기반 상황 지식 베이스를 구축하고, 추론 규칙을 정의해서 상황 분석과 평가를 자동화하는 방향으로 진행했다.
공공과 민간: 관광, 특허, 금융 사례
공공 분야에서는 한국 관광공사의 관광 정보 개방 사업이 대표적이다. 2015년부터 개발해서 현재까지 운영 중인 이 서비스는, 관광공사가 보유한 관광 정보를 관광 온톨로지 기반으로 표준화해서 SPARQL 엔드포인트를 통해 개방하고 있다. 위치 정보를 가진 관광 데이터를 지도 위에 시각화하는 기능도 제공한다. 특허청의 경우 IP와 비즈니스 데이터의 접근성 향상을 목적으로 국내 최대 규모의 특허 온톨로지를 구축해서 서비스했다(2025년 종료).
민간 분야에서는 KT 기가지니 스피커와의 연동이 있었다. 엑소브레인 프로젝트의 산출물인 와이즈 KB를 상용 목적의 '아담 온톨로지'로 전환하고, 질의응답 엔진과 연결해서 서비스했다. 스피커로 들어온 질문 중 온톨로지 기반 답변이 필요하다고 판단되면 솔트룩스 측에 질문을 전달하고, 답변을 받아서 사용자에게 제공하는 구조였다.
가장 최근 사례는 KB국민은행과의 금융 상품 지식 그래프 구축이다. 은행이 보유한 금융 상품 정보를 통합하고 이를 기반으로 질의응답하는 서비스를 제공했다. 상품 지식 그래프 플랫폼을 구축해서 현재 국민은행의 '스타 기업 뱅킹' 앱에서 상품 검색에 활용되고 있다. 특히 국내 대형 기업과의 POC에서 LLM의 환각 현상을 줄이기 위해 온톨로지를 활용한 결과, 상품에 대한 질문에 온톨로지에서 검색한 데이터를 LLM에 넣어주면 환각이 거의 사라지는 현상을 확인했다.
온톨로지 투자는 장기전이다
정용일 상무가 강조한 핵심은 온톨로지 활용의 출발점이 기술이 아니라 문제 정의라는 점이다. 고객이 가진 데이터가 무엇인지 식별하고, 그것을 온톨로지로 전환한 뒤, 데이터 통합에 쓸 것인지, 내부 공유에 쓸 것인지, 질의응답에 쓸 것인지, 상황 분석에 쓸 것인지, 의사결정 지원에 쓸 것인지를 결정해야 한다. 초기 구축 비용이 크다는 인식이 있지만, 지속적으로 투자하면 할수록 온톨로지의 가치는 복리로 커진다. 20년간의 현장 경험이 말해주는 것은, 온톨로지는 단기 프로젝트가 아니라 조직의 지식 인프라라는 사실이다.
