OpenAI 샘 알트먼 CEO가 “마치 맨해튼 프로젝트(핵무기 개발)를 보는 것 같았다”고 언급한 GPT-5는 실제로 이전 세대보다 처리 속도가 향상되고 환각(hallucination) 현상이 줄어드는 등 전반적인 성능 도약을 이뤄냈습니다. 특히 그동안 엔트로픽의 클로드보다 떨어진다고 평가받았던 코딩 능력이 좋아지면서, 프롬프트만으로 웹페이지나 간단한 게임을 만들어내는 수준에 도달한 것으로 나타났습니다. GPT-5는 업계 코딩 테스트에서 74.9%라는 정확도를 달성하며, 종전까지 최고 성능을 보였던 클로드(Claude) 모델이 기록한 67.6%를 앞질렀습니다.
또한 성능 향상과 함께 API 사용 비용은 이전 모델 대비 최대 4분의 1 수준으로 대폭 낮아져, 성능과 효율성 두 마리 토끼를 잡았다는 평가도 받았습니다. 이외에도 ‘인류 최후의 시험’이라 불리는 종합 지능 벤치마크에서도 25.3점을 기록하면서 1위에 올랐습니다.
기대와 우려 – AGI 도래 논쟁과 초기 불만
하지만 모두가 GPT-5에 대해서 좋게 평가하고 있지는 않습니다. 일부 전문가들은 GPT-5가 뛰어난 건 사실이지만 인간 수준의 범용인공지능(AGI) 시대를 열기엔 아직 부족하며, 오히려 전작인 GPT-4o와 비교했을때 퇴보한 부분도 있다고 평가했습니다. 또한 오픈AI가 주장한 74.9%라는 수치는 코딩 능력이 최적화된 환경에서의 최상 결과이며, 순수한 모델 자체의 성능 비교 시에는 여전히 앤트로픽의 클로드가 65%로 1위를 기록했다는 점도 지적하고 있습니다. 이처럼 성능 홍보에 과장이 있었다는 비판과 함께, 정작 출시 직후 일반 사용자들이 느낀 가장 큰 변화는 성능보다 답변 스타일이었습니다. GPT-5 출시 직후, 가장 큰 불만은 모델의 답변 스타일이 과거 모델보다 훨씬 '사무적'으로 변했다는 점이었습니다. 또한 이전 모델인 GPT-4o를 선택할 수 없게 되면서 혼란이 가중되기도 했습니다.