LLM은 이제 구식, 월드모델이 미래

“대규모 언어모델은 앞으로 5년 내 구식 기술이 될 것이다.”

메타의 최고 AI 과학자인 뉴욕대학교 얀 르쿤(Yann LeCun) 교수가 한 말입니다. 참고로 얀 르쿤 교수는 토론토대학교의 제프리 힌튼(Geoffrey Hinton) 교수, 몬트리올대학교의 요슈아 벤지오(Yoshua Bengio) 교수, 스탠퍼드대학교의 앤드류 응(Andrew Ng) 교수와 함께 AI 분야의 4대 석학으로 꼽히며, 2018년 ‘컴퓨터 과학계의 노벨상’이라 불리는 튜링상을 수상한 세계적인 AI 전문가입니다. 그는 “진정한 인간 수준의 AI 연구에 관심이 있다면 이제는 LLM만 바라봐서는 안 된다”며, "물리적 세계를 이해하고 인간과 함께 일할 수 있는 AI 시스템, 즉 월드 모델을 갖춰야 한다"고 강조했습니다.

월드모델이란 간단히 말해 AI 내부에 구축된 현실 세계의 모형을 뜻합니다. 사람이 머릿속에 현실을 그려보고 상상하듯이, AI도 환경에 대한 내재적인 모델을 가지고 있어야 새로운 상황에 적응하고 행동을 예측할 수 있다는 개념입니다. 이러한 월드모델을 갖춘 AI는 마치 컴퓨터 안에 작은 “스노우볼(globe)” 형태의 세계를 품고 있는 것처럼 동작합니다. 인간도 눈앞의 상황을 일일이 실험하지 않고 머릿속 시뮬레이션으로 결과를 예측하는데, AI에게도 그런 능력을 부여하자는 것입니다.

현재의 LLM처럼 훈련 데이터 속 패턴만 기억하는 AI로는 이러한 능력을 얻기 어렵습니다. 현실 세계는 너무 복잡하고 변수가 많아 아무리 방대한 텍스트 데이터를 집어넣어도 완벽히 포착되지 않는 부분들이 존재합니다. 특히 로봇과 같이 물리적 세계와 상호작용해야 하는 AI의 경우, 세상의 다양하고 예측 불가능한 변화까지 훈련 데이터로 일일이 가르치는 것은 불가능에 가깝습니다. 따라서 AI 스스로 세계의 동작 원리를 학습하고 추론할 수 있는 내부 모델을 가져야만 합니다. 월드모델을 갖춘 AI는 새로운 상황에 직면해도 마치 아이처럼 상황을 그려보고 결과를 예상할 수 있으므로, 한층 유연하고 지능적인 대응이 가능해집니다.

얀 르쿤 교수는 현재의 텍스트(언어) 중심 LLM 학습 방식의 한계를 지적했습니다. 그는 “일반적으로 LLM은 30조 개의 토큰을 포함하고 있으며, 이는 100조 바이트의 텍스트 데이터에 해당한다”며 “그 모든 텍스트를 사람이 읽는 데는 50만 년이 걸릴 것”이라고 설명했습니다. 100조 바이트는 방대한 양의 텍스트이지만, 인간은 시각, 청각, 촉각 등 다양한 감각을 통해 실제 세계를 단순하게 이해하는 네 살 무렵이면 이미 그 정도의 정보를 습득할 수 있다고 덧붙였습니다.

그는 ‘모라벡의 역설(Moravec’s paradox)’을 예로 들면서 AI는 이제 텍스트 학습만으로는 부족하며, 비디오와 같은 감각 입력을 통해 스스로 물리적 세계를 학습할 수 있어야 한다고 말합니다. 참고로 모라벡의 역설은 캐나다의 인공지능 및 로봇공학 연구자인 한스 모라벡이 1988년 저술한 "Mind Children"에서 제시한 내용으로 인간과 컴퓨터 간의 능력을 비교할 때 인간에게 쉬운 것은 컴퓨터로 처리하기 어렵고 반대로 인간에게 어려운 것은 컴퓨터로 처리하기 비교적 쉽다는 점에서 비롯한 역설입니다.

주요 기업들의 월드모델 연구 동향

세계적인 AI 선도 기업들은 자체 개발한 LLM의 성능을 높이는 한편, 월드모델 개념을 도입한 차세대 AI 연구에도 박차를 가하고 있습니다.

  • 메타(Meta) – 메타의 수석 AI과학자인 얀 르쿤은 LLM의 한계를 지적하며 새로운 AI 아키텍처를 주창하고 있습니다. 그가 제안한 JEPA(Joint Embedding Predictive Architecture)는 일종의 월드모델 기반 학습 구조로, 비생성적(self-supervised) 예측 모델을 통해 세계의 규칙을 학습하자는 아이디어입니다. 2025년 6월, 메타는 JEPA를 영상 영역에 확장한 V-JEPA 2라는 최신 모델을 공개했는데, 이 모델은 1백만 시간 이상의 비디오를 자기 지도방식으로 학습하여 사람과 객체의 다양한 동작 패턴을 익혔습니다. 그 결과 V-JEPA 2는 동적인 물리 세계에서 일어나는 변화를 이해하고 예측하며, 이러한 예측을 바탕으로 로봇의 행동을 계획할 수 있게 되었습니다. 실제로 메타 연구진은 V-JEPA 2를 탑재한 로봇을 테스트하여, 물체를 집어 옮기는 등의 작업 성공률이 기존 방식보다 크게 향상되었음을 보고했습니다. 이는 로봇이 주어진 훈련 데이터에 없던 새로운 동작도 내재화된 세계 모델을 통해 상상하고 실행할 수 있음을 보여줍니다. 메타는 나아가 계층적(hierarchical) 월드모델 연구와, 시각·청각·촉각을 아우르는 멀티모달 예측에 집중하겠다고 밝혔습니다.
  • 오픈AI(OpenAI) – 오픈AI는 현재 LLM 기술을 극대화하는 전략을 취하고 있으나, 월드모델적인 요소도 서서히 도입하고 있습니다. 오픈AI는 GPT-4에 이미지 인식 능력을 추가하여 멀티모달 AI로 발전시켰고, 이를 통해 단순 텍스트 이상의 시각적 세계 정보까지 활용하려 하고 있습니다. 또한 ChatGPT에 플러그인 기능을 도입해 웹브라우저나 코드를 실행하는 외부 도구와 연계하는 등, AI가 동적인 환경에 대응하도록 실험하고 있습니다. 다만 오픈AI의 입장은 메타와 달리 “충분히 많은 데이터를 주면 신경망 내부에 자연스럽게 세계 모델이 형성될 것”이라고 기대하는 편입니다. 실제로 오픈AI와 구글 딥마인드는 방대한 동영상, 3D 시뮬레이션 등 멀티모달 데이터로 거대 모델을 훈련시키면, 명시적으로 프로그래밍하지 않아도 신경망의 “통계적 구조” 속에 세계 모델이 응축될 수 있다고 보고 있습니다. 오픈AI는 아직 메타처럼 특정한 “월드모델 아키텍처”를 표방하고 있지는 않지만, LLM의 한계를 인식하고 멀티모달 훈련이나 강화학습을 통해 암묵적인 세계 이해를 향상시키려 노력 중입니다.
  • 딥마인드(DeepMind) – 구글 딥마인드는 일찍부터 환경에 대한 모델을 학습하는 AI 연구를 진행해 왔습니다. 딥마인드의 특징은 강화학습을 통해 에이전트가 스스로 세계의 규칙을 터득하도록 하는 실험을 많이 했다는 점입니다. 예를 들어 2019년 발표된 MuZero 알고리즘은 게임의 규칙을 사전에 전혀 알려주지 않고도 스스로 게임 환경의 동작 모델을 학습하여 알파고처럼 높은 수준의 플레이를 가능케 했습니다. 특히 구글 딥마인드가 발표한 Genie 3는 텍스트 프롬프트와 사용자 입력에 따라, 실시간으로 세계를 프레임 단위로 생성하고 시뮬레이션하는 엔드투엔드 월드 모델입니다. Genie 3는 외부로 내보낼 수 있는 자산을 생성하지 않지만, AI 에이전트의 학습과 상호작용 연구에는 적합합니다.
  • 월드 랩스(World Labs) –스탠퍼드대의 AI 연구자 페이페이 리 교수는 물리 세계의 구조를 보다 깊이 이해할 수 있는 대규모 월드 모델 개발을 목표로 신생 스타트업 ‘월드 랩스(World Labs)’를 창업하고 2억3천만 달러의 투자를 유치한 바 있습니다. 월드 랩스는 단 한 장의 이미지와 텍스트 프롬프트만으로 지속적이고 탐색 가능한 3D 세계를 생성하는 생성형 모델인 Marble을 공개했습니다. Marble은 한 장의 이미지와 간단한 텍스트 프롬프트만으로 실제처럼 보이는 3차원 공간을 만들어내고 이렇게 생성된 결과물은 ‘Gaussian splat’ 형식의 3D 파일로 내보낼 수 있어, 게임 엔진이나 VR 시뮬레이터, 영화 제작 툴 등 다양한 곳에서 즉시 활용 가능합니다. 딥마인드와의 차이점은 월드 랩스는 시각적으로 완성된 3D 공간을 생성하는 기술을 제공하고, 딥마인드는 그 공간 안에서의 ‘경험과 상호작용’을 시뮬레이션하는 기술을 개발하고 있다는 점입니다.

향후 전망

치열한 AI 기술 경쟁이 이제 현실 세계로 이동하고 있습니다. 월드모델은 AI가 인간의 사고와 상식에 한 걸음 더 가까워지는 길입니다. LLM 이후 시대의 AI는 단순히 언어를 처리하는 존재가 아니라, 세상을 상상하고 이해하는 존재로 진화할 것입니다.

향후에는 자율주행차, 제조 물류 시스템, 재난 대응 로봇 등과 같은 고도의 자율 시스템이 월드 모델과 결합되면서 더 정교한 의사결정과 내비게이션을 수행할 것으로 예상됩니다. 또한 월드 모델은 AI가 미래의 다양한 시나리오를 시뮬레이션하고, 각각의 행동이 가져올 결과를 예측할 수 있도록 함으로써, 의료, 정책, 비즈니스 전략 등 여러 분야에서 보다 합리적이고 효과적인 의사결정이 가능해질 전망입니다.  

글: 투이컨설팅 디지털연구소