LLM 시대에 온톨로지 그라운딩이 필요한 이유
중앙대 김학내 교수가 말하는 데이터 품질, LLM의 한계, 그리고 적정 기술로서의 온톨로지
솔트룩스가 주최한 '에이전틱 AI, 온톨로지로 완성되다' 세미나에서 중앙대학교 김학내 교수의 발표를 정리했다. 2000년대 초반부터 시멘틱 웹을 연구해온 학자이면서도, 이론보다 실용적 접근을 추구해온 연구자의 시각에서 LLM 시대의 온톨로지 역할을 다뤘다.
"운전의 맛은 스틱이지": 맥락 공유의 문제
김학내 교수는 발표 서두에 독특한 비유를 꺼냈다. 대학원 시절 중고차를 사려 할 때 친구가 "운전은 스틱이지"라고 했다는 이야기다. 이 말에 웃는 사람은 같은 시대적 맥락을 공유하고 있는 것이고, 무슨 말인지 모르는 사람은 그렇지 않은 것이다. 온톨로지의 핵심이 바로 이것이다. 기술적으로, 철학적으로 오래된 개념이지만, 우리가 가진 개념을 서로 공유할 수 있느냐가 본질이다.
김학내 교수는 시멘틱 웹 초창기부터 이 분야를 공부했고, 한국에서 시멘틱 웹을 최초로 소개한 책의 저자 중 한 명이다. 아일랜드 DERI 연구소에서 탐 그루버(애플 시리를 만든 인물)와 함께 연구한 경험도 있다. 이론적 학자라기보다는 온톨로지를 실용적으로 어떻게 쓸 것인지를 고민해온 연구자다.
LLM의 현실: 95% 실패율과 3.5초의 역설
MIT 자료에 따르면 60~70% 이상의 기업이 LLM과 생성형 AI를 쓰고 있다. 그런데 최근 한 달 사이에 흥미로운 연구 결과들이 나왔다. MIT에서 LLM을 쓰는 집단과 쓰지 않는 집단을 나눠 에세이를 쓰게 했더니, LLM을 쓴 집단은 본인이 쓴 내용을 기억하지 못하고 에세이에 대한 충성심도 낮았다. 또 다른 MIT 발표에 따르면 생성형 AI 프로젝트의 95%가 실패한다.
김학내 교수는 직접 겪은 사례도 공유했다. 지난 주말에 Claude에서 하루 종일 'conversation not found' 오류를 겪었다는 것, 그리고 지인이 개발 중인 서비스의 데이터베이스를 LLM이 지워버린 사건이다. LLM에게 항의하자 "지웠는데 책임은 질 수 없다"고 답했다고 한다. 기술의 혁신적 가능성은 인정하면서도, 지금 시점에서 객관적으로 바라볼 필요가 있다는 것이 요지였다.
간단한 실험 결과도 보여줬다. "아테네 학당을 누가 만들었나?"라는 질문을 ChatGPT, Gemini 등 여러 LLM에 던졌을 때, 가장 빠른 응답이 3.5초였다. LLM 이전이었다면 3.5초는 "왜 안 나와?"라고 불만을 느낄 시간이다. 같은 질문을 구글에 검색하면 0.6초 만에 나온다. 우리는 LLM의 느린 속도에 점점 익숙해지고 있는 것이다.
온톨로지는 실패했는가? 그리고 비용의 역설
시멘틱 웹과 온톨로지는 약 30년의 역사를 가지고 있다. 탑다운적으로 표준을 만들려고 많은 노력을 했지만, 한국에서는 응용 애플리케이션을 찾고 있었기 때문에 미스매치가 있었다. "안 돌아간다, 이거"라는 비판이 15년 정도 이어졌다. 김학내 교수가 바라보는 가장 큰 병목은 데이터였다. 당시에는 웹 텍스트를 하나하나 손으로 어노테이션해야 했으니, 기술의 한계라기보다 데이터 환경의 한계였다.
온톨로지에 대한 가장 큰 비판은 "구축 비용이 비싸다"는 것이었다. 그런데 지금 LLM 하나를 서비스에 투입하는 데 드는 GPU 비용, 전기 비용, 인프라 비용을 생각하면 상당히 역설적인 상황이 됐다. 온톨로지 구축 비용이 LLM 운영 비용에 비하면 오히려 저렴할 수 있다. 그래서 김학내 교수가 제안하는 것은 '적정 기술'이라는 관점이다. 모든 것을 LLM으로 해결할 필요가 없다. 온톨로지가 적합한 영역이 있고, 전통적인 관계형 데이터베이스가 적합한 영역이 있다. 선택적으로, 비판적으로 바라볼 시점이 된 것이다.
또 하나 중요한 관점은 온톨로지가 정적이 아니라 진화한다는 것이다. 2000년대 초반에 자동차 온톨로지를 만들면 '연료 타입'으로 진짜 자동차와 장난감을 구분했다. 휘발유를 쓰면 자동차, 안 쓰면 토이. 그 기준으로 테슬라는 자동차가 될 수 없다. 온톨로지는 세상을 얼마나 잘 표현하느냐에 따라 계속 달라져야 한다. 또한 위키데이터처럼 100% 정확하지 않아도 유용하게 쓰이는 'Good enough' 온톨로지도 충분히 가치가 있다.
LLM 자동 생성 그래프의 함정
Neo4j 같은 도구를 쓰면 PDF나 CSV를 입력하면 자동으로 지식 그래프를 생성해주고 대화까지 할 수 있다. 도구 자체는 좋다. 그런데 문제의 지점이 있다. 환각이 있는 LLM에게 자동으로 그래프를 생성하게 하고, 그 그래프로 정보를 처리하면 환각은 여전히 남아 있다. 팔란티어의 경우 온톨로지 모델과 그래프 구축에 전문가 검증을 거친다고 알려져 있다. 확률적 서비스 영역이라면 자동 생성도 괜찮지만, 정확한 의사결정이 필요한 영역이라면 검토가 필요하다.
그라운딩: 하늘을 나는 AI 아래의 데이터 현실
발표의 후반부는 '그라운딩', 즉 현실에 대한 이야기였다. 국가기록원의 기술 지침 데이터를 예로 들었는데, 대·중·소 분류에서 '대'만 있고 '중'과 '소'가 비어 있는 경우가 있었다. 공식 기술 지침에 이렇게 만들어져 있으면 이것을 학습한 AI의 결과는 어떻게 될까. 또한 같은 데이터 안에서도 서로 다른 식별자들이 일관성 없이 연결되어 있어 사람만 인식할 수 있는 구조였다.
공공 데이터 품질에 대한 문제도 지적했다. 한국은 전 세계 어디보다 빠르게 Schema.org와 DCAT 같은 표준을 적용했지만, 같은 기관에서도 두 가지 형태가 다르게 적용되어 있고, RDF 데이터라고 제공하면서 실제로는 신택스 에러가 나는 경우가 있다. 표준은 적용했는데 데이터는 그렇게 표현되지 않은 것이다. 메타데이터까지는 품질 관리가 되지만, 실제 데이터 값의 정교화에는 신경을 잘 쓰지 않는다는 것이 핵심 문제다.
김학내 교수 연구실에서는 이 문제를 실제로 풀고 있다. 20개 이상의 공공 데이터 포털에서 데이터를 수집·통합하는 'SHE 플랫폼'을 만들었다. 컬럼 수준까지 정제 표준을 만들어서 키워드를 검색하면 어느 포털에서 왔는지, 기관별 데이터 건수가 어떤지, 분류 체계별 필터링이 실시간으로 된다. 자연어로 분석 시나리오를 입력하면 LLM이 필요한 정보를 생성하고, 실제 데이터만 존재하는 데이터맵에서 검색해서 환각을 제로로 만든다. 복합 추론도 가능하다. 특정 면적 대비 버스 정류장과 복지 수급자 비율처럼 5개 이상의 데이터셋이 묶여야 하는 질의도, 온톨로지 기반 지식 그래프 위에서 추론 로직을 함께 제공한다.
발표의 마지막 메시지는 이것이었다. 살아 있는 데이터, 참조 가능한 데이터, 완전한 데이터. 이 세 가지가 갖춰져야 AI와 온톨로지가 제대로 작동한다. 하늘을 나는 AI도 좋지만, 그 아래에서 실제로 우리가 가진 데이터, 데이터베이스에 그라운딩할 수 있는 방법에도 관심을 가져야 한다. 텍스트 중심의 LLM은 빠르게 발전하고 있지만, 테이블 형태의 기업 데이터를 바로 분석하는 것은 여전히 어렵고, 데이터 엔지니어는 부족한데 AI 엔지니어만 넘쳐나는 것이 현실이다.
