95%가 실패하는 자리에 서 있는 것은 모델이 아니다
First Mile, Last Mile, 그리고 그 사이를 채우는 것은 모델이 아니다.
AI 도입 파일럿의 95%가 실패한다는 MIT 보고서는 2025년 가장 자주 회자된 진단 중 하나다. 한 줄짜리 헤드라인으로 정리되기 좋아서 더 그렇다. 모델이 아직 부족하다, 시기상조다, 거품이다. 보고서를 본 사람들이 가장 자주 도달하는 결론이다.
그런데 그 자리를 가까이 본 사람들의 진단은 달랐다. 도입 현장에서 일하는 사람들은 95% 실패의 원인을 모델 자체에 두지 않는다. 실패는 모델이 아니라 모델 양쪽 끝에 있다. 모델 앞에 데이터를 정리하는 자리, 모델 뒤에 사람이 일하는 자리. 그 두 자리에서 일이 무너진다.
이 두 자리는 도입을 진지하게 해 본 사람들 사이에서 first mile shlep과 last mile shlep이라고 불린다. shlep은 무겁고 지루한 일을 끌고 가는 일이라는 뜻이다. 모델 학습보다 두 마일이 더 어렵다는 진단이다. 95% 실패의 정체는 두 마일을 메우지 못한 자리에서 발생한다.
First Mile, 데이터는 깨끗하지 않다
엔터프라이즈에 AI를 도입한다고 하면 보통 "이 모델을 fine-tune하자"부터 떠올린다. 그런데 그 앞에 더 무거운 자리가 있다. 데이터를 끌어모으는 자리다. 임원실에서는 "AI를 도입하자"고 결정하지만, 실무 자리에 도착하면 "이 데이터로는 못 시작한다"가 첫 보고다.
한 보험사 CTO가 도입 컨설팅을 받으면서 내놓은 묘사가 이 자리를 잘 보여준다. 데이터는 사일로에 흩어져 있고, 일부는 스프레드시트에, 일부는 떠난 사람의 USB에 들어 있다. 양식이 다른 PDF가 수십만 장 있고, 누군가 떠난 자리에 남아 있는 워드 파일이 핵심 의사결정 기록이다. 이 묘사는 한 회사의 특수한 상황이 아니다. 어떤 엔터프라이즈 데이터든 fine-tune을 위해 모으면 같은 풍경이 나타난다.
이 데이터를 한 줄짜리 학습 데이터로 변환하는 일만으로 몇 달이 걸린다. 그 사이에 사람이 들어가서 무거운 노가다를 한다. 비구조화된 OCR PDF를 표 형식으로 옮기고, 양식이 다른 스프레드시트의 컬럼을 매핑하고, 떠난 사람의 메모를 도메인 사전과 맞춘다. AI 프로젝트라는 이름이 붙어 있지만 본질은 데이터 거버넌스 프로젝트다.
다만 이 마일이 무겁다는 사실 자체가 문제는 아니다. 이게 안 끝나면 모델이 시작도 못 한다는 점이 진짜 문제다. 95% 실패의 일부는 first mile에서 멈춘 채로 모델까지 가지 못한 사례다. 모델이 부족해서가 아니라 그 앞이 막혀서 실패한다.
모델은 회사를 모른다
First mile을 통과해서 모델까지 도착했다고 가정해 보자. 그 다음에 또 다른 벽이 있다. foundation model 자체는 똑똑하지만 회사에 대해서 아는 게 없다. 회사 내부 용어, 결재 라인, 도메인 규제, 기존 워크플로우. 모두 학습 데이터에 들어 있지 않다. 모델이 이 회사에서 일을 하려면 그 맥락이 외부에서 주입돼야 한다.
이 자리를 도입 현장 사람들은 agentic scaffold라고 부른다. 모델 주변에 둘러쳐야 하는 네 가지가 있다. 작업의 방향을 정하는 시스템 프롬프트, 회사 데이터를 넣는 컨텍스트 엔지니어링, 내부 도구를 호출할 수 있게 만드는 tool use, 그리고 출력이 맞는지 확인하는 eval. 네 가지가 같이 가야 모델이 회사 안에서 일을 한다.
PM 입장에서 보면 이 자리는 익숙하다. 새 직원이 들어왔을 때 회사 맥락을 전수해주는 일과 본질이 같다. 회사가 어떻게 돌아가는지 적은 문서, 누구에게 뭘 물어야 하는지의 라인, 어떤 결과물이 좋은 결과물인지의 기준. 이걸 모델에게 넣어주는 작업이 agentic scaffold다. "프롬프트 한 번 잘 짜면 됨"의 신화가 무너지는 자리도 여기다.
95% 실패의 두 번째 큰 묶음은 이 자리에서 발생한다. 모델은 회사를 모르는데 회사도 모델에게 회사를 알려주는 방법을 모른다. 양쪽이 서로를 잘 모르는 채로 만난다. 그 결과 "모델이 회사 일을 못 한다"가 결론이 되지만, 실은 회사가 모델에게 회사를 알려주지 못한 것이다.
Last Mile, 인터페이스가 다시 설계되지 않으면
First mile과 agentic scaffold를 통과해도 마지막 자리가 남는다. 모델이 일을 한다고 가정했을 때, 그 결과를 누가 받느냐의 문제다. 코드 영역에서 cursor가 작동하는 이유는 full autonomy가 아니라 partial autonomy로 설계됐기 때문이다. 사람이 옆에서 검증하면서 같이 일한다.
이 통찰을 모든 직무로 확장하면, 각 직무별로 cursor 같은 도구가 필요하다는 결론이 나온다. 보험 언더라이터를 위한 도구, 컴플라이언스 변호사를 위한 도구, SDR을 위한 도구. 사람이 모델 옆에서 같이 일하는 인터페이스를 직무마다 다시 설계해야 한다. AI 도입은 모델을 들이는 일이 아니라 일하는 자리를 다시 그리는 일이라는 말이 정확히 이 지점을 가리킨다.
PM 입장에서 보면 이 자리가 새로운 일거리다. 그동안 PM이 만들던 SaaS는 사람이 시작부터 끝까지 일하는 도구였다. 이제 만들어야 하는 도구는 모델이 시작하고 사람이 검증하는 도구다. "이 화면에서 사람이 무엇을 할 것인가"가 아니라 "이 화면에서 사람이 무엇을 검증할 것인가"가 첫 질문으로 바뀐다.
95% 실패의 세 번째 묶음은 last mile에서 발생한다. 모델은 답을 만들었는데 그 답이 사람의 일에 자연스럽게 결합되지 않는다. 검증할 인터페이스가 없으면 사람은 모델 답을 그냥 신뢰하거나 그냥 거부한다. 둘 다 좋은 운영이 아니다. 인터페이스가 다시 설계되지 않으면 모델은 혼자 일하지 않는다.
같은 일을 인간과 모델이 같이 한다
두 마일을 다 메우고 나서도 한 가지가 더 남는다. 모델이 정말 일을 잘 하는지를 어떻게 확인하느냐의 문제다. 도입을 잘 운영하는 회사들이 채택하는 방식이 tandem이다. 한동안 인간과 모델이 같은 일을 동시에 한다. 매니저가 두 결과를 같이 본다.
이 구조에서 흥미로운 일이 일어난다. 모델이 맞고 인간이 틀린 경우는 인간을 학습시킨다. 인간이 맞고 모델이 틀린 경우는 모델 학습용 데이터 포인트가 만들어진다. 두 방향 모두 시스템이 학습한다. 모델이 빨리 배우기만 하는 게 아니라 인간도 같이 배운다. AI 도입이 운영 변화로 작동하는 자리가 여기다.
이 운영 방식의 핵심은 학습률이다. 모델이 처음에는 인간보다 못할 수도 있지만, tandem이 잘 운영되면 시간에 따라 모델이 따라잡고 추월한다. 그 시점이 와도 인간이 사라지는 게 아니다. 검증자로 남는다. 모델이 맞는 빈도가 점점 높아질 뿐이다. 빈도 곡선이 올라가는 만큼 인간 한 명이 검증할 수 있는 작업량이 늘어난다.
95% 실패와 5% 성공의 차이가 여기에 있다. 성공한 5%는 tandem 운영을 갖췄다. 실패한 95%는 모델만 들이고 검증 루프를 만들지 않았다. AI 도입을 모델 도입으로 본 회사는 실패하고 운영 변화로 본 회사는 성공한다.
다시 그어야 할 도입의 정의
세 자리를 함께 놓고 보면 95% 실패의 정체가 보인다. 모델 자체가 부족해서 실패한 비율은 생각보다 작다. 모델 앞의 데이터, 모델 주변의 맥락, 모델 뒤의 인터페이스, 그리고 모델 옆의 검증. 네 자리가 비어 있어서 실패한다. 네 자리는 모두 사람이 메우는 자리다.
모델이 더 똑똑해지면 일부 자리가 줄어든다. 그러나 사람이 메워야 하는 본질은 사라지지 않는다. AI 도입은 인프라 도입보다 조직 변화에 가깝다. 새 시스템을 사는 게 아니라 기존 일하는 방식을 다시 그리는 일이다. 도입의 성패가 모델 선택보다 운영 설계에서 갈리는 이유다.
결국 95% 실패라는 진단을 다시 보면, 모델 시기상조론이 아니라 운영 미숙론에 가깝다. AI를 모델 도입으로 본 시각이 95%를 만들어내고, AI를 운영 변화로 본 시각이 5%를 만들어낸다. 차이는 모델이 아니라 그 양쪽 마일을 메우는 사람의 자리에 있다. 95%가 실패하는 자리에 서 있는 것은 모델이 아니다.