AI 가상 소비자 패널의 등장, 인간보다 더 정확한 AI 소비자의 속마음
지난 수십년 동안 기업들은 소비자들이 무엇을 원하는지 파악하기 위해 매년 엄청난 비용을 설문조사에 쏟아부었다. 하지만 이러한 전통적인 방식은 느리고, 응답자의 편향에 취약하다는 한계를 가지고 있다. 만약 AI를 활용해서 더 빠르고 정확하게 소비자의 마음을 읽을 수 있다면 어떨까?
최근 거대언어모델(LLM)을 '가상 소비자 패널'로 활용하려는 시도가 주목받고 있다. PyMc-Lab에 근무하는 Benjamin F. Maier 등이 발표한 "LLMs Reproduce Human Purchase Intent via Semantic Similarity Elicitation of Likert Ratings" 논문에서 연구진들은 GPT-4o와 Gem-2f와 같은 LLM을 이용해, 실제 소비자 조사 데이터와 동일한 환경에서 AI ‘참여자’를 구성했다. 각 AI는 나이, 성별, 지역, 소득 등 인구통계학적 속성을 입력받아 특정 제품 콘셉에 대한 구매 의도를 리커트 척도로 응답하도록 설계되었고 평가 지표로는 다음과 같은 세 가지 유사도(metric)를 사용했다.
- Distributional Similarity (분포 유사도)
인간 응답과 AI 응답의 분포가 얼마나 비슷한가를 Kolmogorov–Smirnov (KS) 거리로 계산. LLM이 “이 제품을 구매할 의향이 있습니까?”라는 질문에 직접 1~5점으로 응답하게 하였다.
- Concept Ranking Similarity (개념 순위 유사도)
AI와 인간이 제품의 ‘인기도 순위’를 얼마나 일치시켰는가를 피어슨 상관계수로 측정. 즉, “사람이 좋아하는 제품을 AI도 좋아하느냐”를 수치화하였다.
- Semantic Similarity Rating (SSR)
AI가 작성한 자유서술형 반응을 문장 의미 차원에서 분석해 Likert 점수로 변환. 이 과정을 통해 단순 숫자 응답보다 더 풍부한 의미적 정보를 반영한다.
핵심 발견 1: AI에게 숫자가 아닌 '스토리'를 질문해야 하는 이유
실험 결과 기존의 방식인 'Direct Likert Rating(DLR)'은 근본적인 문제를 안고 있었다. 연구에 따르면, LLM에게 1~ 5점 척도로 구매 의사를 평가해 달라고 요청하자, 대부분 '3점'과 같은 '안전한' 중간 점수를 선택하는 경향을 보였기 때문이다. 이는 실제 사람을 대상으로 하는 응답 분포와는 크게 다른 결과를 낳았고, 분포 유사도 점수(𝐾𝑥𝑦)는 GPT-4o 모델에서 0.26이라는 매우 낮은 수치를 기록했다.
연구진들은 이 문제를 해결하기 위해 '의미 유사도 평점(Semantic Similarity Rating, SSR)'이라는 방법을 제시했다. 이 방법은 두 단계로 이루어지는데 먼저, LLM에게 구매 의사에 대해 점수가 아닌 자유로운 텍스트, 즉 이야기로 답하도록 요청한다. 다음으로, AI를 사용해 이 텍스트 답변이 미리 정의된 1~5점까지의 '기준 문장(anchor statements)'과 의미적으로 얼마나 유사한지를 측정하여 현실적인 응답 분포를 만들어냈다. 그 결과 SSR 방식은 인간의 반복 테스트 신뢰도 대비 90%에 달하는 상관관계 달성도를 보였으며, 분포 유사도 점수(𝐾𝑥𝑦)는 0.88에 달하며 실제 사람을 대상으로 한 설문조사 결과와 거의 동일한 패턴을 보였다.
핵심 발견 2: 페르소나 없이는 AI도 '예스맨'일 뿐이다
SSR 방법이 성공하기 위해서는 한 가지 중요한 전제 조건이 있다. 바로 LLM에게 상세한 인구통계학적 '페르소나'를 부여하는 것이다. 연구에서 인구통계학적 정보를 제거하자 LLM은 갑자기 모든 제품에 대해 과도하게 긍정적인 평가를 내리기 시작했고, 좋은 제품과 나쁜 제품을 구별하는 능력을 완전히 상실했다. 반면 인구통계학적 페르소나를 부여했을 때, 인간의 제품 선호도 순위와의 상관관계 달성도는 무려 92%에 달했다. 다시 페르소나를 제거하자, 이 수치는 50% 수준으로 급락했다. 이러한 데이터는 AI가 단순히 긍정적인 답변만 내놓는 '예스맨'이 아니라 의미 있는 신호를 생성하기 위해서는 페르소나 부여가 필수적이라는 사실을 잘 보여준다.
핵심 발견 3: AI가 사람보다 더 솔직한 피드백을 제공한다
AI 소비자는 때로 인간보다 더 ‘솔직한’ 평가를 내렸다. 긍정적인 응답에 치우치는 인간의 긍정 편향(positivity bias)은 AI에서는 거의 찾아볼 수 없었다. 예를 들어, 어떤 고가의 헬스케어 제품에 대해 GPT-4o 기반 소비자는 “내 예산에는 조금 부담스럽네요.”라고 응답했고, Gem-2f 모델은 “너무 고급스러워 보여요. 하지만 가격 대비 가치가 의문이에요.” 고 평가했다. AI 패널은 단순히 좋다 또는 싫다를 넘어서, 평가의 근거를 구체적으로 제시하고 제품의 장점을 강조하며 우려되는 점까지 명확하게 지적했다. 연구의 부록에 실린 AI의 통찰력 있는 답변 몇 가지를 살펴보면 다음과 같다.
• "사용 편의성과 안전성은 매력적이지만, 효과와 잠재적 부작용에 대해 더 알고 싶습니다."
• "신뢰할 수 있는 브랜드에서 나온 제품이라는 점도 마음에 듭니다."
• "제 필요와 예산에 비해 너무 고급스러운 것 같아요."
이런 반응은 실제 인간 패널보다 더 넓은 의견 스펙트럼을 보여주며, AI 소비자가 감정적 반응 대신 논리적·맥락적 판단을 내릴 수 있음을 시사한다.
시장조사의 패러다임 전환 가능성
이번 연구를 통해 AI 소비자 패널은 단순히 설문 자동화가 아니라, 실제 인간 집단을 대체할 수 있는 ‘가상 시장(market twin)’의 가능성을 열어준다. 이를 통해 다음과 같은 일이 가능해질 전망이다.
- 신제품 콘셉 테스트의 가속화: 수천 명의 소비자 대신 수천 개의 LLM 인스턴스를 돌려 몇 시간 내에 응답 확보
- 소비자 세그먼트별 반응 시뮬레이션: 인구통계 정보나 심리 프로파일을 조건부 프롬프트로 설정해, 특정 타깃(예: 20대 여성, 중소도시 거주)의 반응을 정밀하게 모사
- 비용 절감 및 반복 실험: 전통적 패널 조사는 1회성 비용이 높지만, AI 패널은 언제든 반복 실험이 가능하며 노이즈를 제어할 수 있음
글: 투이컨설팅 디지털연구소