코퍼스 확장에 대비해 AIDRA 지식베이스의 프롬프트 주입 구조를 매 단계 전량 주입에서 티어·카테고리 기반 on-demand 검색으로 전환한 프로젝트
AIDRA가 다룰 캐릭터·장르가 늘어날 제품 확장 계획이 이미 잡혀 있어, 정본 코퍼스가 커지면 매 단계 전량 주입하던 프롬프트 구조가 컨텍스트 예산을 압박할 것이 확실했다
KB 임포트 로직이 이미 모든 엔트리에 티어(T0~T3)와 카테고리 두 축을 자동으로 부여하고 있다는 걸 코드 분석으로 발견해, 새 분류 체계 없이 retriever 하나만 얹으면 코퍼스가 커져도 base 토큰 예산을 고정할 수 있다고 판단했다
안전·정체성(T0)과 작법 규칙(T1)은 그대로 매 단계 캐시 주입하고, 레퍼런스(T2) 중 검색 가능한 24개 엔트리만 카테고리 프리필터와 어휘 랭커로 top-3·엔트리당 1,500자까지 골라 단계별로 동적 주입했다. 임베딩 랭커는 지금 규모에는 과한 투자라 판단해 다음 단계로 미뤘다
T2를 전량 주입했다면 14,163자였을 것을 활성화 후 단계당 최대 약 4,500자로 제한해 약 68%의 토큰 절감 효과를 확인했고, T0·T1은 손대지 않아 기존 안정성도 그대로 유지했다
에이전틱 RAG를 설계할 때 중요한 건 가장 정교한 기술이 아니라, 모델 성능과 현재 규모에 맞는 가장 효율적인 방식을 찾는 제품 설계 감각이라는 걸 배웠다
문제 정의
AIDRA는 한 줄 아이디어를 컨셉, 캐릭터, 시놉시스, 최종 기획안으로 발전시키는 4단계 생성 파이프라인이다. 이 파이프라인은 매 단계마다 지식정본(KB), 학습 규칙, 학습 선호(RLVR) 세 층을 동일하게 주입해왔다. 안전과 정체성을 담당하는 T0 코어가 약 3,282자, 작법 규칙인 T1이 약 12,542자, 참고 자료인 T2 레퍼런스가 약 14,163자로, 이미 3만 자에 가까운 지식을 네 단계 모두에 통째로 밀어넣고 있는 구조였다.
당장은 문제가 드러나지 않았다. 다만 AIDRA가 다룰 캐릭터와 장르가 늘어날 제품 확장 계획이 이미 잡혀 있었던 만큼, 지식이 늘어나는 건 정해진 미래였다. 지식이 두 배, 세 배로 늘어나면 지금처럼 전량 주입하는 구조는 네 단계 모두에서 똑같이 부풀어 컨텍스트 예산을 선형으로 압박할 것이 뻔했고, 이걸 겪고 나서 고치는 것과 미리 대비하는 것은 전혀 다른 작업이었다. 다만 제약은 분명했다. 안전과 정체성, 모드 규칙을 담당하는 지식(T0·T1)은 recall miss가 곧 사고로 이어질 수 있어, 이 안정성을 건드리지 않는 선에서 구조를 바꿔야 했다.
가설 수립
다른 대안을 저울질할 필요가 없었다. KB를 SSOT로 임포트하는 로직을 코드 단에서 직접 들여다보니, 45개 지식 엔트리 모두에 이미 티어(T0부터 T3까지)와 카테고리라는 두 개의 축이 자동으로 부여되고 있었다. 스토리 공식 8개, 전개·구성 8개, 비즈니스·시장 9개, 소재·장르 7개, 연출·표현 6개, 제작 파이프라인 6개, 안전·IP 1개로 나뉜 일곱 카테고리가 이미 임포트 단계에서 자동 분류돼 있었다.
검색 가능한 구조가 처음부터 갖춰져 있었던 셈이라, 남은 일은 그 위에 retriever라는 다리 하나를 놓는 것뿐이었다. 목표는 명확했다. 코퍼스가 45개에서 수백, 수천 개로 늘어나도 base 프롬프트에 항상 실리는 토큰 예산만큼은 고정시키는 것이었다.
솔루션 도출
안전과 정체성을 담당하는 T0, 작법 규칙인 T1은 지금처럼 매 단계 동일하게 주입하고 캐싱하는 구조를 그대로 두었다. 검색 대상이 된 것은 레퍼런스 지식(T2) 25개 중 안전·IP 카테고리 1건을 이중 가드로 제외한 24개 엔트리뿐이었다. 카테고리로 후보를 좁힌 뒤 키워드 오버랩 기반의 어휘 랭커로 top-3, 엔트리당 1,500자까지만 골라 단계별로 동적 주입하도록 설계했다.
임베딩 랭커는 다음 단계로 미뤘다. 지금 45개 규모에서 임베딩까지 투입하는 것은 과한 투자라고 판단했고, 어휘 기반으로 먼저 단계별 결과를 검증한 뒤 필요하면 오너 사인오프를 받아 고도화하도록 게이트를 걸어두었다. 여기에 Anthropic 프롬프트 캐싱에 두 번째 cache breakpoint를 추가해, 새로 얹은 T2 보조 블록도 캐시 대상에서 빠지지 않게 했다. 2026년 6월 19일 지식관리 백엔드 작업을 시작해 25일 KB를 45개로 큐레이션·재분류하고, 29일 retriever를 머지·배포하기까지 약 열흘이 걸렸다.
결과 & 배운 점
레퍼런스 지식을 매 단계 14,163자씩 전량 주입하던 구조를, 활성화 이후에는 단계당 최대 약 4,500자로 제한하는 데 성공해 약 68%의 토큰 절감 효과를 확인했다. 처음엔 단계적으로 검증하려 실주입을 끈 채로 배포했지만, 실제로 켜서 확인한 결과 계산했던 절감폭 그대로 효과가 났고, 안전과 정체성을 담당하는 T0·T1은 손대지 않았기 때문에 기존 안정성도 그대로 유지됐다.
이 프로젝트를 통해 배운 건 기술력의 크기가 아니라 적정선을 찾는 감각이었다. 임베딩 기반 검색이 더 정교하다는 걸 알면서도, 지금 규모에는 어휘 기반 랭커가 맞다고 판단하고 그 판단을 먼저 검증하는 쪽을 택했다. 에이전틱 RAG를 설계할 때 중요한 건 가장 높은 기술을 쓰는 것이 아니라, 모델 성능과 현재 상황에 맞는 가장 효율적인 방식을 찾는 제품 설계 감각이라는 걸 다시 확인한 프로젝트였다.
에서의 다른 경험도 살펴보기