AX 도입할 때 아무도 안 묻는 질문
요즘 AX 도입 검토 자료를 볼 때마다 내가 머릿속에서 따로 돌려보는 질문들.
요즘 AX 도입 관련 자료와 미팅을 여러 번 거치면서 한 가지가 자꾸 마음에 걸렸다. 대부분의 LLM 도입 검토가 같은 항목을 반복한다는 것이다. 모델 성능 벤치마크, 토큰 단가, 응답 지연시간, 한국어 처리 품질. 이 비교들은 필요하지만, 내 눈에는 가장 중요한 질문 하나가 빠져 있는 것처럼 느껴진다. 우리 조직이 이 벤더로 돌린 에이전트의 실행 기록은 누가 소유하는가.
이 질문이 채팅 시대에는 크게 중요하지 않았다. 프롬프트와 응답 로그는 민감하긴 해도 조직의 핵심 지식 자산은 아니었다. 그런데 에이전트 시대로 넘어오면서 상황이 달라지고 있다는 생각이 든다. 에이전트가 실행한 의사결정의 전 궤적, 즉 어떤 데이터를 조회했고, 어떤 도구를 호출했고, 어디서 판단을 바꾸었고, 어떻게 실패를 복구했는지가 기록된다. 이건 어떻게 보면 조직의 의사결정 지식 그 자체에 가깝다.
다만 모든 에이전트 도입이 이 소유권 문제를 똑같이 안고 있는 건 아니다. Claude API를 직접 쓰면서 자체 하네스를 짠 회사라면 실행 기록이 자기 시스템에 쌓인다. Cursor나 Cognition 같은 회사들이 지난 2년간 그렇게 자기 데이터를 축적해왔다. 내가 자꾸 걸리는 건 한 단계 더 나아간 흐름이다. Anthropic Managed Agents나 OpenAI Assistants API 같은 호스팅 런타임이 점점 표준이 되어가는 중이라는 점이다. 이 전환이 일어나는 순간, 데이터의 기본 저장 위치가 우리에서 벤더로 옮겨간다.
그래서 요즘 AX 도입 검토 자료를 볼 때마다 내가 머릿속에서 따로 돌려보는 질문들이 생겼다. 이 글에 그 질문들을 그대로 옮겨봤다.
실행 기록이 왜 데이터 자산처럼 느껴지는가
에이전트 실행 기록의 가치가 단순 로그 이상으로 느껴지는 이유가 몇 가지 있다. 우선 이 기록은 조직의 업무 방식 자체를 내포한다. 투자 심사 에이전트가 어떤 지표를 어떤 순서로 조회했는지는, 그 조직의 투자 철학이 작동하는 방식을 그대로 반영한다. 그리고 이 기록은 차세대 에이전트 학습의 고품질 데이터이기도 하다. 정답만 있는 지도학습 데이터와 달리, 실행 궤적은 판단의 전 과정을 담고 있기 때문이다. 마지막으로 이 기록은 감사와 재현의 근거다. 우리 에이전트가 왜 그 결정을 내렸는지 물을 수 있는 유일한 객관적 출처가 된다.
Anthropic의 Managed Agents 아키텍처 회고에서도 이 점이 반복해서 강조된다. 세션은 채팅 로그가 아니라 append-only 이벤트 스트림이며, 복구 가능한 사실의 기록으로 다뤄져야 한다. 이 설계 철학 자체는 정확하다고 생각한다. 다만 내가 자꾸 걸리는 건, 그 기록이 기본값으로 어디에 저장되느냐다. 관리형 인프라를 쓰는 순간, 이 기록은 벤더의 시스템 안에 쌓인다. 조직은 API를 통해 조회할 수 있지만, 그건 접근권이지 소유권과는 다른 개념이다.
지금의 LLM 도입 검토가 놓치는 쪽
현재 엔터프라이즈 AX 도입 검토 자료를 보면 대부분 같은 항목을 나열한다. 모델 성능, 가격, 지연시간, 컴플라이언스 인증, SLA, 지원 언어. 이 항목들은 전부 벤더가 우리에게 제공하는 것에 대한 질문이다. 그 반대 방향, 즉 우리가 이 벤더에게 넘기는 것에 대한 질문은 거의 없다.
이게 우연처럼 보이지 않는다. 벤더 입장에서는 이 질문이 나오지 않는 게 유리하다. 조달 프로세스가 벤더가 우리에게 뭐 주는가에만 집중하게 되어 있으면, 데이터 소유권 조항은 기본 계약서의 세부 조항으로 묻힌다. 그리고 기본 계약서의 세부 조항은 대부분 벤더에게 유리하게 쓰여 있다. 내가 관찰한 몇 번의 벤더 선정 회의에서도 이 이슈가 아예 테이블에 올라오지 않는 경우가 많았다.
내가 자꾸 떠올리는 여섯 개 질문
이 공백을 메우기 위해 내가 머릿속에서 정리해둔 여섯 개 질문이 있다. 이게 답이 아니라 질문이라는 점이 중요하다. 답은 조직마다 다를 것이고, 나도 아직 다 답하지 못한 상태다. 다만 이 질문들을 테이블에 올리는 것과 올리지 않는 것은 완전히 다른 선택이라는 생각이 든다.
첫 번째는 에이전트 실행 이벤트 로그의 원본을 우리 조직이 보유할 수 있는가이다. 벤더가 제공하는 대시보드나 API 조회가 아니라, raw 이벤트 스트림을 우리 스토리지로 직접 복제할 수 있는가. 이게 가능하지 않다면 우리는 기록의 관람객이지 소유자가 아니라는 생각을 자꾸 하게 된다.
두 번째는 과거 세션을 다른 모델로 재현 실행할 수 있는가이다. 오늘 Claude로 돌린 세션을 내년에 다른 모델로 다시 돌려볼 수 있는지가 궁금하다. 이게 안 되면 모델 교체 옵션 자체가 사실상 사라진다. 재현 가능성은 단순히 로그가 남는다와는 다른 개념이다. 같은 입력과 같은 도구 상태에서 다른 모델이 어떻게 판단했는지를 비교할 수 있는가가 내 기준이다.
세 번째는 감사 로그가 법적 증거로 통용되는 포맷으로 추출 가능한가이다. 금융권, 의료, 공공 조달에서는 AI가 내린 판단의 감사 추적이 점점 필수가 되어가는 중이다. 벤더의 내부 포맷이 아니라 조직의 감사 시스템과 호환되는 표준 포맷으로 추출이 되는가가 중요해 보인다. 이 조건이 없으면 규제 대응 시점에서 곤란해지는 장면을 상상하게 된다.
네 번째는 모델 교체가 얼마나 깊이까지 가능한가이다. Claude를 GPT로 바꿀 수 있다와 Claude를 자체 파인튜닝 모델로 바꿀 수 있다는 다른 차원의 유연성이다. 벤더가 관리형 런타임을 제공하는 순간, 그 런타임 안에서 모델을 바꾸는 것과 런타임 자체를 바꾸는 것의 경계가 흐릿해진다. 이 경계를 계약 시점에 명시해두는 것이 나중에 선택지로 돌아오는 것 같다.
다섯 번째는 온프레미스나 VPC 격리 옵션의 실제 제약이 무엇인가이다. 표면적으로는 VPC 내에서 돈다고 하지만, 실행 기록이 벤더 클라우드로 동기화되는 구조라면 격리의 의미가 반감된다. 데이터 경계를 정확히 어디에 그을 수 있는지를 기술 문서 수준에서 확인하는 게 필요하다고 느낀다.
여섯 번째는 크레덴셜 프록시 아키텍처가 우리 보안 정책과 호환되는가이다. Managed Agents는 기본적으로 모델이 직접 크레덴셜을 볼 수 없고, 프록시를 통해서만 외부 시스템에 접근한다. 이 설계는 안전하지만, 조직의 기존 IAM 시스템과 결합하는 방식이 벤더마다 다르다. 이 결합의 세부 사항이 실제 도입 리스크를 결정할 것 같다는 생각이 든다.
마이데이터 시대가 떠오르는 이유
핀테크와 마이데이터 산업을 거치면서 내가 가장 가까이에서 봤던 질문이 정확히 이것이었다. 고객의 거래 기록은 누구의 것인가. 이 질문에 대한 답이 법제도로 정리되기 전까지, 사실상 기록을 저장하는 금융사가 묵시적 소유자였다. 고객이 자기 데이터를 이동시키거나 삭제할 권리가 제대로 보장되지 않았던 시절이 있었다.
지금 에이전트 실행 기록을 둘러싼 상황이 그때와 비슷한 궤적을 밟고 있는 것 같다는 생각이 든다. 초기에는 벤더가 묵시적 소유자로 자리잡는다. 기업들이 아무 의식 없이 표준 계약을 받아들이기 때문이다. 시간이 지나면서 문제가 하나씩 드러날 것이다. 경쟁사가 같은 벤더를 쓰는 상황에서 우리 실행 데이터가 벤더의 학습 데이터로 흘러들어가는 게 발견되고, 벤더를 바꾸려 할 때 과거 기록을 가져올 수 없는 게 발견되고, 규제 당국이 감사 데이터를 요구할 때 벤더 포맷으로는 대응이 안 되는 게 발견될 수 있다. 이 발견들은 대부분 너무 늦은 시점에 일어날 가능성이 크다.
마이데이터 시대가 나한테 남긴 건 한 줄 관찰이다. 데이터 주권은 사후에 회복되지 않는다. 법제도가 정비되기 전에, 계약 시점에 명시적으로 확보해두지 않으면 나중에는 회수 비용이 너무 커진다. 에이전트 실행 기록도 같은 성격의 이슈라는 직감이 있다.
아직 내가 답을 못 찾은 것들
솔직히 이 글을 쓰면서도 모든 질문에 명쾌한 답을 가진 상태는 아니다. 특히 두 가지가 남아 있다. 하나는 실행 기록 주권을 꼼꼼히 확보하려 하면 그 자체로 도입 비용이 너무 커지지 않는가 하는 현실적 질문이다. 작은 조직이 이 모든 조건을 벤더와 협상하기는 쉽지 않다. 다른 하나는 벤더 중립적인 실행 기록 표준이 나올 수 있는가 하는 장기 질문이다. REST가 웹을 열었고 OpenTelemetry가 관측성을 열었듯이, 에이전트 실행 기록에도 비슷한 표준이 나와야 문제가 근본적으로 풀릴 것 같은데, 그런 표준이 어디서 시작될지는 아직 잘 보이지 않는다.
이 두 질문의 답은 아직 나한테 없다. 다만 분명한 건, 지금 AX 의사결정을 하는 자리에서 이 질문을 테이블에 올리는 것과 올리지 않는 것은 몇 년 후의 조직 경쟁력에 큰 차이를 만들 수 있다는 직감이다. 모델 성능 비교는 점점 덜 중요해질 것 같고, 우리가 쌓아온 실행 기록의 질과 양이 다음 단계의 차별점이 될 것 같다는 게 요즘 내가 가장 강하게 느끼는 감각이다.