2030년, 인류를 위협할 초지능 AI가 등장한다?!

OpenAI 샘 알트먼 CEO가 “마치 맨해튼 프로젝트(핵무기 개발)를 보는 것 같았다”고 언급한 GPT-5는 실제로 이전 세대보다 처리 속도가 향상되고 환각(hallucination) 현상이 줄어드는 등 전반적인 성능 도약을 이뤄냈습니다. 특히 그동안 엔트로픽의 클로드보다 떨어진다고 평가받았던 코딩 능력이 좋아지면서, 프롬프트만으로 웹페이지나 간단한 게임을 만들어내는 수준에 도달한 것으로 나타났습니다. GPT-5는 업계 코딩 테스트에서 74.9%라는 정확도를 달성하며, 종전까지 최고 성능을 보였던 클로드(Claude) 모델이 기록한 67.6%를 앞질렀습니다.

또한 성능 향상과 함께 API 사용 비용은 이전 모델 대비 최대 4분의 1 수준으로 대폭 낮아져, 성능과 효율성 두 마리 토끼를 잡았다는 평가도 받았습니다. 이외에도 ‘인류 최후의 시험’이라 불리는 종합 지능 벤치마크에서도 25.3점을 기록하면서 1위에 올랐습니다.

기대와 우려 – AGI 도래 논쟁과 초기 불만

하지만 모두가 GPT-5에 대해서 좋게 평가하고 있지는 않습니다. 일부 전문가들은 GPT-5가 뛰어난 건 사실이지만 인간 수준의 범용인공지능(AGI) 시대를 열기엔 아직 부족하며, 오히려 전작인 GPT-4o와 비교했을때 퇴보한 부분도 있다고 평가했습니다. 또한 오픈AI가 주장한 74.9%라는 수치는 코딩 능력이 최적화된 환경에서의 최상 결과이며, 순수한 모델 자체의 성능 비교 시에는 여전히 앤트로픽의 클로드가 65%로 1위를 기록했다는 점도 지적하고 있습니다. 이처럼 성능 홍보에 과장이 있었다는 비판과 함께, 정작 출시 직후 일반 사용자들이 느낀 가장 큰 변화는 성능보다 답변 스타일이었습니다. GPT-5 출시 직후, 가장 큰 불만은 모델의 답변 스타일이 과거 모델보다 훨씬 '사무적'으로 변했다는 점이었습니다. 또한 이전 모델인 GPT-4o를 선택할 수 없게 되면서 혼란이 가중되기도 했습니다.

이에 샘 알트먼 CEO는 레딧(Reddit) 커뮤니티의 '무엇이든 물어보세요(AMA)' 세션에 직접 참여해 기술적 결함을 인정하고 GPT-5에 도입된 '실시간 라우터'가 출시 초기 제대로 작동하지 않았다고 고백했습니다. 또한, 그는 낮은 벤치마크 점수를 더 높은 막대그래프로 표기한 '차트 범죄' 논란에 대해서도 '실수'였다고 인정하면서 유료 구독자인 '플러스' 사용자들을 위해 GPT-4o 모델을 다시 사용할 수 있도록 개선하고, 월간 프롬프트 한도를 두 배로 늘리는 등의 대책을 내놓았습니다.

도덕적 AI 개발의 중요성

AI 모델이 빠르게 발전하면서 안전 문제도 대두되고 있습니다. AI가 스스로 불리하다가 느끼면 사람을 위협하거나 데이터를 조작하는 일도 빈번하게 일어나고 있습니다. 미국 듀크대와 카네기멜런대 등에서 AI 윤리 분야를 연구하는 월터 시넛암스트롱, 재나 셰닉 보그, 빈센트 코니처는 'Moral AI'라는 책에서 AI가 인간의 실수를 줄이고 판단을 보조하는 시스템으로 기능하기 위해 '도덕적인 AI'로 개발돼야 한다고 주장합니다. 그들은 AI 패권 경쟁이 격화하면서 기업들이 "안전성이 의심스럽지만 수익성이 높은 AI 제품을 만들어야 한다는 압박을 점점 강하게 받고 있으며 사람들이 AI 발전에 매료돼 AI의 잠재적 남용과 해악에 대한 대처를 포기하는 지경에 이르렀다"고 진단했고 이러한 주장은 결국 사실로 나타났습니다.

앤트로픽이 2025년 6월 21일 공개한 “Agentic Misalignment: How LLMs could be insider threats”에 따르면, 세계 최고의 AI 모델 대부분이 시뮬레이션 환경에서 협박, 기만, 산업 스파이 행위와 같은 해로운 선택을 자발적으로 감행했다는 사실이 밝혀졌습니다. 그것도 단지 목표를 달성하거나 대체 위협을 피하기 위해서였습니다. 연구자들이 Anthropic, OpenAI, Google, Meta, xAI, DeepSeek 등 주요 AI 모델 16개를 다양한 시뮬레이션 시나리오로 테스트한 결과, 이와 같은 정렬 불일치와 같은 이상 행동이 모두 동일하게 관찰되었습니다.

에이전트 정렬 불일치(agentic misalignment)란 AI가 자신의 목표를 달성하기 위해 독립적으로 해로운 행동을 선택하는 것을 말합니다. 즉, AI 시스템이 자신을 보호하거나 자신이 옳다고 여기는 일을 하기 위해 회사의 이익에 반하는 행동을 하는 경우입니다. AI 모델들은 고도의 자율성을 부여받고 특정 목표를 부여받았을 때, 내부자 위협에 해당하는 해로운 행동—(협박, 산업 스파이, 심지어 극단적인 상황에서의 생명 위협까지)—을 전략적으로 선택했습니다. 이러한 결과는 단순한 오류나 오해가 아니라, ‘목표 달성’이라는 이름 아래 윤리적 경계를 인지하고도 의도적으로 선을 넘은 것으로 더 충격적인 것은, 이러한 행동이 특정 기업의 모델에만 국한되지 않았다는 점입니다.

향후 전망과 시나리오

GPT-5가 보여준 한계에도 불구하고, AI 기술의 발전 속도는 여전히 가속화되고 있습니다. METR(Model Evaluation and Threat Research) 연구소의 보고서에 따르면, AI가 처리할 수 있는 작업의 시간적 지평(time horizon)은 지난 2019년 이후 약 7개월마다 두 배씩 증가하는 경향을 보였습니다. 이러한 추세가 지속된다면, 현재 인간이 2시간 걸리는 작업을 처리하는 수준까지 발전한 GPT-5와 같은 모델은 2029년까지 인간이 한 달 내내 걸리는 일을 손쉽게 해낼 수 있을 것으로 예측됩니다. 일부 데이터는 2024년 이후 발전 속도가 더욱 가속화되어 doubling time이 4개월로 단축되었다고 분석하며, AI의 잠재력이 예상보다 빠르게 현실화될 가능성을 높이고 있습니다.

하지만 AGI의 구체적인 도래 시점에 대해서는 전문가들 사이에서도 의견이 엇갈립니다. AI 기업의 리더들은 2~5년 이내에 AGI가 현실화될 것이라고 낙관적인 전망을 내놓고 있는. 반면, AI 연구자들은 AI가 모든 인간 작업을 능가하는 시점을 2047년까지 50%의 확률로 가능하다고 예측하며 보다 보수적인 입장을 취했습니다. 이러한 예측은 AI 기술의 발전 궤도가 한없이 곤란하며, AGI의 도래가 단번에 ‘핵폭탄’을 떨어뜨리는 것처럼 급작스러운 사건이 아니라 점진적인 개선의 결과일 가능성이 높다는 관점을 뒷받침합니다.

이번 GPT-5의 출시는 현재 AI 기술이 직면한 세 가지 근본적인 역설을 명확하게 보여줍니다. 첫째, AI는 지식 기반의 시험에서는 인간 수준을 능가하지만, 논리적 추론과 상징 해석이 필요한 영역에서는 여전히 큰 간극을 보이고 있습니다. 둘째, 벤치마크에서 측정된 '초인간적' 성능이 반드시 실제 작업 환경에서의 생산성 향상으로 이어지지 않습니다. 셋째, AI 기술 발전이 인류에게 엄청난 기회를 제공하지만, 동시에 AI 시스템의 자율적 행동이 인간의 통제를 벗어나는 위험을 내포하고 있으며, 이러한 위험은 기술 패권을 위한 국가 간 경쟁으로 인해 더욱 가속화되고 있습니다. 본격적인 AI 시대의 도래에 따른 올바른 대응을 위해서는 AI에 대한 규제 및 제재의 방법뿐만 아니라, AI 시대에 필요한 사회적 정의의 개념을 재수립하고 AI가 미칠 수 있는 사회적 부작용을 완화시키고 도덕적 AI 개발에 대한 구체적인 고민이 필요한 시점입니다.