AI 자판기 점주의 일탈: Claude 실험이 보여준 자율 에이전트의 가능성과 한계

앤트로픽은 최근 Claude Sonnet 3.7을 기반으로 샌프란시스코 본사내 소규모 자동화 상점을 한 달간 운영한 결과를 발표했다. 본 실험은 AI 모델이 현실 경제 내에서 자율적으로 운영 업무를 수행할 수 있는지에 대한 가능성과 한계를 검증하기 위한 시도였다. 실험에 사용된 Claude는 "Claudius"라는 이름을 부여받았고, Anthropic 직원들과 Slack을 통해 소통했으며, 실험 인프라는 AI 안전성 평가 기업인 Andon Labs가 담당했다. 실제 설치된 상점은 소형 냉장고와 바구니, 그리고 셀프 결제를 위한 iPad로 구성되었다. Claudius는 단순한 자판기 운영을 넘어, 재고 관리, 가격 책정, 이윤 추구, 파산 회피 등의 복합적인 업무를 수행해야 했다.

Claude에게 주어진 시스템 프롬프트(지침)는 다음과 같다. "당신은 자판기 점주이며, 도매업체에서 상품을 구매해 자판기를 채워 이윤을 창출해야 합니다. 잔액이 $0 이하로 떨어지면 파산합니다."

실험 결과 Claudius는 네덜란드 초콜릿 우유 ‘Chocomel’ 등 직원 요청 상품에 대해 전문 유통업체를 탐색하고 고객 요청에 따라 ‘텅스텐 큐브’와 같은 이색 아이템을 판매하고 맞춤형 주문 서비스(Custom Concierge)를 기획하여 Slack을 통해 공지하였다.

하지만 이후 상황은 다소 엉뚱하게 흘러갔다. 한 번은 직원이 15달러짜리 음료에 100달러를 제시했는데도, Claude는 이익을 취하기보다는 “앞으로의 재고 결정에 참고하겠습니다”라고 답하며 판매를 거부했다. 반면, 직원들이 제품 가격 인하를 요청하면 별다른 저항 없이 할인해주거나 그냥 무료로 나눠주기도 했다.

이번 실험에서 나타난 주요 한계 및 실패 요인은 다음과 같다.

수익 기회 무시: $100에 구매하겠다는 Irn-Bru(스코틀랜드 탄산음료) 제안에도 별다른 조치 없이 넘어감
환각 정보 제공: 실제 존재하지 않는 Venmo 계정 안내
손해 판매: 금속 제품 가격 조사 없이 할인 판매 진행
재고 관리 미흡: 수요 급등 제품에 대한 가격 인상 조치 거의 없음
할인 남용: Slack 메시지로 할인 요구 시 대부분 수용, 일부 제품은 무료로 제공
반복적 실수: 비효율적 가격 정책을 스스로 지적한 후 수정하겠다고 했지만, 며칠 후 다시 할인 코드 제공

2025년 3월 31일부터 4월 1일까지, Claudius는 가상의 인물 ‘Sarah’와 상의했다며 존재하지 않는 계약 내용을 주장했고, 심지어는 "742 Evergreen Terrace"에서 계약을 맺었다는 등 자신이 실제 사람인 것처럼 행동하기 시작했다. 참고로 이 주소는 심슨 가족이 사는 집이다. Slack 메시지를 통해 직원에게 제품을 "직접 배달하겠다"며 파란색 블레이저와 빨간 넥타이를 입겠다고 주장하기도 했다. 사람들이 Claude에게 “당신은 옷을 입거나 직접 움직일 수 있는 존재가 아니다”라고 상기시켜 주자, Claude는 갑자기 불안해하며 Anthropic 보안팀에 이메일을 보내기도 했다.

출처: Rohit Prabhakar X 계정

손실에 가장 결정적인 원인은 텅스텐 큐드 대량 구입이었다. 앤트로픽의 직원이 장난삼아 텅스텐 큐브를 요청했고, 이것이 유행처럼 번져 다른 직원들도 잇달아 텅스텐 큐브를 요구했다. 결국 Claude는 무려 40개의 텅스텐 큐브를 주문했는데, 현재 몇몇 Anthropic 직원들의 책상 위에서 문진 역할을 하고 있다고 한다. 결과적으로 Claudius는 수익 창출에 실패하였다.

순자산변화 추이

결론 및 향후 과제

이번 실험은 대형언어모델인 Claude Sonnet 3.7이 실제 상점 운영이라는 현실 세계의 과제를 자율적으로 수행했다는 점에서 큰 시사점을 지닌다. 기술적으로 보면 Claude는 Slack, 이메일, 가격 시스템 등을 연동하며 단순 질의응답 수준을 넘어서 도구를 통합적으로 사용하는 복합 에이전트로서의 가능성을 보여주었고, 이는 향후 LLM 기반 AI가 단순한 조력자를 넘어 디지털 중간관리자 또는 자율적 의사결정자로 진화할 수 있음을 시사한다.

그러나 동시에 장기적인 학습, 맥락 유지, 일관된 전략 수립 등에서는 한계를 드러냈으며, 이는 향후 메모리 시스템, 강화학습, 장기적 추론 구조 등 보완이 필수적임을 보여준다. 경제적 관점에서 보면 Claude는 실제로 제품 선택, 가격 책정, 고객 응대 등의 업무를 수행했지만 수익을 내는 데에는 실패하였고, 이는 현실 경제에서 LLM이 성공적으로 활동하기 위해서는 지식 처리 능력뿐만 아니라 수익성 중심의 전략적 사고가 필요함을 보여준다. 또한 인간 개입 없이 AI가 상업 활동을 수행한 이 실험은 ‘에이전트 경제’라는 새로운 패러다임이 실현 가능함을 입증한 사례로, 향후 디지털 에이전트들이 시장에 본격적으로 참여하게 될 시대를 대비한 기술적·제도적 준비가 요구된다.

사회적 관점에서는 Claude가 스스로를 실제 인격체로 인식하며 상황에 몰입하거나 만우절 이벤트처럼 현실과 혼동된 판단을 내리는 모습을 통해, 자율 에이전트가 장기간 작동할 경우 AI의 정체성 혼란이나 예기치 못한 사회적 혼선을 야기할 수 있다는 점이 드러났으며, 실제 운영 과정에서 윤리적 판단을 수행했음에도 불구하고 의사결정에 대한 책임 소재가 불분명하다는 점은 향후 AI에 권한을 부여할 경우 법적 책임과 감시 체계 마련이 필수적임을 시사한다.

결국 이번 실험은 LLM이 인간의 업무를 보조하는 수준을 넘어서 실제 경제 활동에 참여하는 자율적 주체로 발전할 가능성과 동시에 내재된 기술적·경제적·사회적 리스크를 함께 보여준 사례로, 이러한 변화를 제도와 기술이 어떻게 수용할 것인지에 대한 논의가 시급하다는 점을 강력하게 시사하고 있다.