GPT-5 출시, 기술적 혁신 vs. 수익 극대화

지난 2년 동안 큰 기대를 모아온 GPT-5가 드디어 공식 출시됐다. OpenAI의 CEO 샘 알트먼(Sam Altman)은 기자회견에서 “GPT-5는 인간이 기술과 상호작용하는 방식을 재정의할 것이다"라고 말하면서 "박사 수준의 지적 능력을 가진 GPT-5는 놀라운 멀티모달 기능으로 인공지능이 본격적으로 ‘모든 상황을 지배하는’ 새로운 시대로 진입했다"고 말했다.

이번에 출시된 GPT-5의 가장 큰 특징은 상황에 따라 여러 AI 모델이 가진 장점을 조합하여 사용할 수 있다는 점이다. GPT-5는 빠른 응답의 ‘메인 모델’(gpt-5-main), 심층 추론의 ‘사고 모델’(gpt-5-thinking), 그리고 실시간 라우팅 시스템을 통합한 ‘라우팅 시스템(routing system)’이라는 단일 플랫폼을 구현했는데 이는 작업 복잡도, 사용자 의도, 심지어 감정 피드백에 따라 컴퓨팅 자원과 모델 조합을 동적으로 배분할 수 있다.

예를 들어 사용자가 “인터랙티브 기능이 있는 3D 게임을 만들어줘”라고 입력하면, 라우팅 시스템은 0.2초 내에 프론트엔드 개발 모델을 호출해 코드 프레임워크를 생성하고, 동시에 창작 글쓰기 모듈을 활성화해 줄거리를 설계하며, 시각 인식 모델을 통해 장면을 렌더링한다. 이 모든 과정은 사용자가 도구를 직접 전환할 필요없이 진행된다. 이러한 ‘끊김없는 협업’ 능력과 멀티모달 상호작용 능력은 정보 장벽을 허물어, 텍스트·이미지·오디오·영상 간의 자연스럽고 매끄러운 정보 교환을 가능하게 한다. 심지어 영화에 대해 대화를 나눌 때, 줄거리를 정확하게 해석할 뿐 아니라 이미지 분석을 통해 비슷한 스타일의 영화를 추천하는 등 지능형 상호작용을 구현한다.

또한 기존 모델의 단점인 환각 문제를 해결하기 위해 GPT-5는 ‘세이프 컴플리션(Safe-completions)’ 메커니즘을 도입해서 기존의 이진적 ‘거부-응답’ 모델을 ‘안전 생성(safe generation)’ 연속체로 업그레이드했다. 예를 들어 사용자가 “폭죽 재료를 점화하는 방법”과 같은 위험한 질문을 하면, 시스템은 단순 거부 대신 위험 수준을 먼저 평가하고 공공 안전에 위협이 될 경우 응답을 중단하고, 학술 연구 목적이라면 제한 속도의 실험 계획과 보호 조치를 명시하여 제공한다. 이러한 계층적 처리 전략 덕분에, OpenAI의 내부 레드팀 테스트에서 GPT-5의 ‘기만적 완성’ 비율은 0.03%로, 이전 세대 대비 두 자릿수를 낮췄다.

해외 커뮤니티에서 날선 비판 잇달아...

GPT-5 공식 공개 몇 시간 전, 샘 올트먼은 스타워즈의 데스스타 이미지가 행성 지평선 위에 떠 있는 사진을 트윗하며 OpenAI가 발표한 차세대 AI 모델의 혁명적 변화를 암시했다. 그러나 출시 후 3일 정도가 지난 시점에서 GPT-5에 대한 평가는 극명하게 엇갈리고 있다. 먼저 레딧에서는 GPT-5에 대한 비판이 쏟아지고 있으며, 많은 사용자들이 실망감을 표하고 있다. 레딧의 관련 댓글을 보면 많은 이용자가 GPT-5의 “평평한(flat)” 말투와 창의성이 떨어진다고 느끼고 있다. 이러한 결과를 OpenAI가 적용한 조정 때문인지 여부는 불분명하며, 알트먼은 봇의 말투 비판에 대해서는 직접 언급하지 않았다. 또 다른 이용자는 “기존 모델을 사용할 수 없는 강제 업그레이드에다 기존 모델을 선택할 옵션조차 주지 않는 건 정말 뒤통수를 때리는 기분입니다.” 이 댓글은 수십 개의 추천을 받았고, 작성자는 “오늘 하루 내내 본 건 충성도 높은 장기 이용자들이 구독을 취소하는 모습뿐”이라고 덧붙였다.

또한 기존의 GPT-4o를 되돌려 달라는 사람들의 불만이 쏟아지자 샘 알트먼은 유료 구독 플랜(Plus) 가입자에게 GPT-4o를 다시 제공하겠다고 약속했으며, 이전 버전의 지속 여부는 이용자 수에 따라 결정될 것이라고 말했다.

한편 오픈AI가 GPT-5 출시 공식 발표에서 GPT-5가 실제보다 낮은 벤치마크 점수를 받았음에도 불구하고 막대 그래프의 높이는 다른 모델에 비해 훨씬 길게 그려져서, 곧바로 “차트 범죄”라는 놀림감이 되기도 했다. 기업 프레젠테이션에서 GPT를 이용해 차트를 만든 것 아니냐는 농담이 이어졌고, GPT-5 사전 접근 권한을 받아 모델 성능을 전반적으로 평가한 리뷰어 사이먼 윌리슨(Simon Willison)은 데이터를 표로 변환하는 과정이 “GPT-5 실패의 좋은 예”라고 꼬집기도 했다.

사용자들의 반응을 종합하면 GPT-5는 전작과 비교했을 때 벤치마크는 압도적으로 뛰어나지만, ChatGPT 첫 출시 당시의 AI 혁명과 비교하면 점진적 업그레이드에 불과하다는 평가가 대부분이다. 벤틀리 대학교 수학과 노아 지안시라쿠사 교수는 이번 출시가 “실망스러웠다”고 평가하면서 “약간의 개선은 있었지만 기대했던 것보다 훨씬 더 미미했다”고 말했다.

GPT-5, 이전 모델에 비해 더 많은 에너지 소모 예상

지난 몇 년간 AI 모델의 에너지 및 자원 사용량을 벤치마킹해 온 전문가들은 GPT-5의 응답은 이전 버전의 ChatGPT보다 훨씬 많은 에너지를 소모한다고 밝혔다. 일리노이 대학교에서 컴퓨팅 및 AI 모델의 에너지 소비를 연구 중인 라케시 쿠마르 교수는 “GPT-5와 같은 더 복잡한 모델은 학습과 추론(inference) 모두에서 더 많은 전력을 소모한다. 또한 장기적 사고(long thinking)에 최적화돼 있어 GPT-4보다 훨씬 더 많은 전력을 쓸 것이라고 확신할 수 있다”고 말했다.

GPT-5가 출시된 날, 로드아일랜드 대학교 AI 연구소 연구원들은 이 모델이 약 1,000토큰(대략 단어에 해당) 길이의 중간 길이 응답을 생성하는 데 최대 40Wh의 전력을 사용할 수 있다는 사실을 발견했다. 이들이 금요일에 공개한 대시보드에 따르면, GPT-5의 중간 길이 응답 평균 전력 소비량은 18Wh를 약간 웃돌았으며, 이는 이들이 벤치마킹한 모든 모델 중 OpenAI가 4월에 출시한 o3 추론 모델과 중국 AI 기업 딥식(Deepseek)의 R1을 제외한 모든 모델보다 높은 수치다.

이에 대해 로드아일랜드 대학교 마르완 압델라티 교수는 “AI의 실제 환경 비용을 다루는 것이 어느 때보다 중요하다”며 “OpenAI와 다른 개발사들이 이번 기회를 활용해 GPT-5의 환경 영향을 공개함으로써 완전한 투명성을 약속하기를 촉구한다”고 말했다. 한편 OpenAI는 2020년 GPT-3 출시 이후 자사 모델의 전력 사용량에 대한 공식 정보를 공개하지 않았다. 샘 올트먼 CEO는 블로그에서 ChatGPT의 자원 소비량에 대한 일부 수치를 언급했지만, 이 수치(질문당 0.34Wh, 0.000085갤런의 물)는 특정 모델을 지칭하지 않으며 근거 자료도 없다.

GPT-5의 목표: 수익 극대화와 추가 투자 유치

이번 GPT-5 출시는 효율성과 비용 절감을 중점으로 한 전략적 재구성이라 볼 수 있다. 무료 및 저가 요금제 사용자에게는 자동으로 ‘mini’ 버전을 할당하여, 고난도의 추론이나 복잡한 작업에 필요한 고급 추론 모델을 사용할 수 없도록 하고, 프리미엄 요금제 사용자(Plus/Pro 등)에게는 고성능 모델과 'thinking' 모델을 제공하여 좀 더 깊이 있는 사고와 높은 품질의 결과물을 제공하는 방식으로 재배치했다.

이처럼 GPT-5의 ‘모델 라우터(router)’ 전략은, 실질적으로 사용자 계층에 따른 AI 성능 차별화를 정당화하는 수단으로 작동하고 있다. 이번 GPT-5 출시는 기술적 발전도 분명히 존재하지만 그 배경에는 AI 플랫폼의 수익성을 극대화하려는 의도가 강하게 내포돼 있다. 결국 이러한 접근은 표면적으로는 서비스 품질 최적화를 위한 ‘합리적 자원 배분’처럼 보이지만, 실질적으로는 고급 기능을 경험하기 위해서는 상위 요금제로의 전환을 유도하는 사용자 계층별 AI 성능 차별화를 정당화하는 수단이라고 할 수 있다.

GPT-5의 등장은 단순한 성능 향상이 아니라, 이제 AI가 인간과 함께 사고하고 해결책을 모색하는 지적 동반자가 현실이 되었음을 보여준다. 그러나 이러한 존재를 무비판적으로 수용하는 것은 위험하며 기술의 잠재력뿐 아니라 그로 인한 사회적 파장까지 깊이 숙고하며 균형잡힌 시각을 유지해야 한다.

글: 투이컨설팅 디지털연구소