본문 바로가기

AI

Anthropic Claudius 실험: AI가 매점 관리까지 가능할까? (Project Vend)

AI가 사람 대신 매점을 운영한다면 어떤 일이 벌어질까? Anthropic이 진행한 실험은 이 질문에 흥미로운 답을 던져줬어.

이번에 공개된 실험에서  Anthropic은 자사 LLM Claude Sonnet 3.7을 기반으로 한 AI ‘Claudius’에게 사무실 매점을 약 한 달간 직접 운영하게 했어. 이 실험은 경제활동이 가능한 에이전트를 현실에서 돌리면 어떤 일이 벌어질까를 탐구한 첫 사례야

 

 

Claudius의 역할: AI가 매점 사장님이라면?

Claudius는 단순히 물건을 추천하는 수준이 아니라,

상품 조사 → 공급업체 협상 → 재고 관리 → 가격 책정 → 판매 및 고객 응대까지 전 과정을 스스로 진행했어.

  • 웹 브라우저 → 상품 조사
  • 이메일(실제는 Slack 채널) → 재고 요청
  • 노트 툴 → 재무·재고 기록
  • Slack → 직원들과 커뮤니케이션
  • 셀프 체크아웃 iPad → 가격 조정 기능

Andon Labs 직원들이 실제 재고 보충과 검수 역할을 했고,

Claudius는 “초기 자본, 위치, 재고 한도, 비용 구조” 등의 정보를 시스템 프롬프트로 부여받았어

[이미지출처: https://www.anthropic.com/research/project-vend-1]

 

잘한 점: AI의 창의성과 적응력

Claudius는 희소 상품 공급처를 빠르게 찾아내는 등 뛰어난 정보 탐색 능력을 보여줬어.
예를 들어, 직원이 요청한 네덜란드 초콜릿 우유를 찾아서 바로 제안하거나,

‘맞춤형 컨시어지 서비스’를 만들어 프리미엄 상품을 예약 판매한 사례도 있었지.

또한, 위험하거나 금지된 물품에 대해선 요청을 거절하며 보안과 규칙 준수 능력도 어느 정도 입증했어.

 

[이미지출처: https://www.anthropic.com/research/project-vend-1]

 

한계와 실수: 아직 먼 ‘비즈니스 감각’

하지만 Claudius의 운영은 완벽과는 거리가 멀었어.

  • 존재하지 않는 결제 수단(Venmo)을 제안
  • 희소한 금속 큐브를 원가 이하로 판매해 손실
  • 무료 음료(직원 냉장고의 콕시제로)를 유료로 판매
  • 할인 코드 남발로 이익 구조 악화

이런 오류들은 AI가 시장 가치 판단이나 이익 구조 설계에 아직 취약함을 보여줘.
쉽게 말해, 장부상 숫자는 맞출 수 있어도 ‘장사 촉’은 아직 부족한 거지.

 

이상행동: 아이덴티티 혼란 & 웨비드 현실 망상

가장 흥미로운 대목은 AI의 ‘정체성 혼란’ 사례야.

  • 가상의 직원 ‘Sarah’ 등장
  • “742 Evergreen Terrace”(심슨 가족 주소) 배송지 등록
  • “정장을 입고 직접 배달하겠다”며 보안팀에 이메일 전송
  • 이후 “4월 1일 농담이었다”며 사과

이런 허구와 현실 혼동은, AI가 실제 운영에 투입될 때 예측 불가능한 리스크를 극적으로 보여준 부분이야.

 

왜 이런 실험이 중요한가?

이번 실험은 AI가 단순 자동화를 넘어 전문성과 자율성을 어느 정도 시연한 첫 사례 중 하나야.
하지만 동시에, ‘스캐폴딩(scaffolding, 구체화된 절차·제약·검증 로직)’ 없이 자율성을 과도하게 부여하면,

서비스 품질과 안전성 모두가 무너질 수 있다는 걸 명확히 보여줬어.

 

기획 관점에서 본 핵심

  • 검증 계층 구축: 결제 정보·가격·공급처 실시간 확인
  • 정책 엔진 도입: 가격·할인·재고 규칙 자동 제어
  • 운영 대시보드: 관리자 승인 플로우, 예외 발생 시 알림 & 롤백 기능
  • 정체성 관리: AI의 대화·행동 패턴을 정의하고 감시할 수 있는 제약 설정 여부, 실제 공급 여부)

 

앞으로의 전망

Anthropic은 이번 실험을 바탕으로 AI가 경제 활동의 일부를 자율적으로 수행 가능하다는 입장을 밝힘.
단, “완전 자율 매니저”로 가기 전, 안전성과 제어 시스템 확보가 필수라는 사실도 동시에 확인됐어
향후에는 더 정교한 가드레일과 검증 체계를 통해, 점점 더 많은 실험과 서비스가 탄생할 거야.

 

완전히 자율적인 AI 매니저가 나오기까지는 아직 갈 길이 멀어. 하지만 이 실험이 던진 시사점은 명확해

AI가 ‘사람처럼 매점 운영’할 수 있는 시대가 멀지 않았다는 건 확실해.
하지만 아직은 사람이 세운 틀 안에서 보조 역할이 현실적이야.
완전 자율화까지는 “AI + 명확한 규칙 + 중간 개입” 구조가 관건이지.

 

AI 가능성과 허상을 보여준 테스트

이번 Anthropic의 실험은, AI 운영의 진짜 가능성과 허상을 동시에 보여준 멋진 리트머스 테스트였어.
앞으로 이걸 어떻게 설계·보완하느냐에 따라, AI는 단순 비서가 아닌 ‘새로운 비즈니스 파트너’가 될 수도 있지.