이제는 피지컬 AI 시대, 엔비디아 코스모스 플랫폼
투이컨설팅 디지털연구소
AI는 최근 몇 년동안 놀라운 속도로 발전해왔다. AI는 조직에 혁신적인 영향을 미칠 잠재력을 가진 기술로 대기업뿐만 아니라 중소기업, 정부 및 국방 분야에서도 도입이 증가하고 있다. 랜드연구소에 따르면 민간 부문의 AI 투자액은 2013년부터 2022년까지 18배 증가했으며, 미국 국방부는 연간 18억 달러를 AI 군사 애플리케이션에 투자하고 있다. 엔비디아의 젠슨 황 CEO는 연례 개발자 회의인 GTC 2025에서 AI 발전 과정을 크게 네 단계로 나누어 설명했다.
첫번째 단계는 인식 AI(Perception AI)이다. 이 시기에는 컴퓨터 비전과 음성 인식 기술이 주요 발전 영역이었다. 말그대로 기계가 세상을 '보고' '듣는' 능력을 갖게 된 것이다. 이러한 인식 기술은 얼굴 인식, 객체 탐지, 음성 명령 해석 등의 기능을 가능하게 만들었다.
두번째 단계는 생성형 AI(Generative AI)다. AI가 문장의 맥락을 이해하고, 사용자가 요청한 의미를 파악한 뒤, 필요한 내용을 생성하고 필요하다면 정보를 검색하여 자신의 이해를 보강하고, 데이터를 검색하는 대신 답변을 생성해내는 방식으로 컴퓨팅의 패러다임이 바뀐 것이다.
세번째 단계는 에이전틱 AI(Agentic AI)다. 에이전틱 AI는 기본적으로 행위주체성을 가진 AI를 의미한다. 젠슨 황 CEO는 에이전틱 AI를 기본적으로 "행위주체성을 가진 AI"라고 정의했다. 이는 단순히 명령에 반응하는 수동적인 도구가 아니라, 스스로 상황을 인식하고 적절한 행동을 취할 수 있는 능동적인 주체로서의 AI를 의미한다. 또한 AI 에이전트는 스스로 행동을 계획하고 실행할 수 있으며, 여러 도구를 사용할 수 있다. 에이전틱 AI는 다중 모달리티 정보를 이해할 수 있기 때문에 웹사이트에 접속하여 그 형식과 단어, 비디오 등을 확인하고, 심지어 비디오를 재생하여 학습한 후, 이렇게 습득한 새로운 지식을 활용하여 업무를 수행할 수 있다.
네번째 단계는 물리적 AI(Physical AI)다. 에이전틱 AI의 발전은 다음 물결인 물리적 AI와 로보틱스로의 자연스러운 진화를 이끌고 있다. 에이전틱 AI가 디지털 환경에서 자율적으로 행동할 수 있다면, 물리적 AI는 마찰, 관성, 인과관계 등의 물리적 세계 개념을 이해하고 3차원 세계에서 작동할 수 있다. 물리적 AI는 센서와 액추에이터(actuator)를 탑재한 AI 시스템으로, 센서를 통해 세계를 관찰하고 액추에이터를 통해 세계를 조작(interact)할 수 있다. 이는 위험하거나 반복적이고 힘든 물리적 작업으로부터 인간을 해방시킬 잠재력을 지닌 것으로 평가받고 있다. 아래 그림은 사전에 학습된 모델(Pre-trained WFM)’을 자동차, 중장비, 로봇 등 여러 산업 분야에 맞춰 재학습(Post-training)하여, 각각의 특화된 모델을 만들어 내는 과정을 잘 보여준다.
요약하면, 물리적 AI는 인간의 삶의 질을 향상시키고 산업 발전에 기여할 수 있는 핵심 기술이며, 현실 세계의 복잡성을 이해하고 상호작용할 수 있는 지능적인 시스템이라고 설명할 수 있다. 젠슨 황 CEO는 WFM(World Foundation Model)이 GPT나 Gemini와 같은 생성 AI 분야의 거대언어모델(LLM)과 마찬가지로 로봇 및 자율주행차 개발에 중요하다고 언급했다.
“거대언어모델(LLM)이 생성 AI와 에이전틱 AI에 혁명을 일으켰던 것처럼, 코스모스 월드 기반 모델은 물리적 AI를 획기적으로 발전시킬 것이다. 코스모스는 물리적 AI를 위한 개방적이고 맞춤화 가능한 추론 모델을 도입해, 로보틱스와 물리적 산업에서 새로운 발전 기회를 열어줄 것이다” - 엔비디아 창립자 겸 CEO 젠슨 황(Jensen Huang) -
세계적인 AI 과학자인 얀 르쿤은 AI 시스템이 물리적인 세상의 작동 방식을 배울 필요가 있다고 주장하며, 그 방법으로 월드 모델 (World Model) 개념을 제시했다. 2018년 구글에서 발표한 "월드 모델"은 인간이 세상을 인지하듯이 AI를 학습시키자는 아이디어에서 출발한다. 월드 모델의 개념은 인간의 인지 시스템에서 영감을 받아, 에이전트가 주변 환경에 대한 압축적이고 예측 가능한 내부 모델을 학습하는 방식으로 Forrester(1971)의 정의를 인용하여, "우리 머릿속에 가지고 다니는 세상의 이미지는 단지 모델일 뿐"임을 강조한다. 예를 들어 자동차 게임을 처음 할 때 조작 방법을 모르기 때문에 여러 버튼을 눌러보면서 어떤 행동이 게임 속 환경에 어떤 변화를 일으키는지 경험적으로 이해하게 된다. 이러한 경험이 쌓이면 우리 뇌 속에는 자동차 게임에 대한 추상적인 모델이 만들어지는데 이러한 방식을 AI에 적용한 것이 바로 월드 모델이다. 즉, AI를 실제 세계에서 학습시키는 대신, 뇌 속의 추상 모델, 마치 메타버스와 같은 가상의 환경에서 학습시키는 것이다. 월드 모델의 구성 요소는 시각적 정보를 압축하는 VAE (Variational Autoencoder), 시간적 흐름을 모델링하고 미래를 예측하는 MDN-RNN (Mixture Density Network Recurrent Neural Network), 그리고 월드 모델의 표현을 기반으로 행동을 결정하는 간단한 Controller로 구성된다.
월드 모델 구현에 있어 가장 주목받는 기업은 바로 엔비디아다. 기업들이 더 나은 성능의 모델을 만들기 위해 수많은 데이터를 학습시키고 있으며, 이 과정에는 엔비디아의 GPU가 필수적으로 사용된다. 월드 모델에서는 이미지와 영상을 학습하기 때문에 기존 모델보다 훨씬 더 많은 고성능 GPU가 필요하다. 젠슨 황은 월드 모델을 활용할 수 있는 프로그램인 코스모스 (Cosmos)를 2025 CES에서 공개했다. 코스모스는 월드 모델의 진화된 형태로 World Foundation Model(WFM), 고급 토크나이저, 데이터 처리 파이프라인 등을 포함하는 통합 플랫폼이다. 여기서는 텍스트, 이미지, 비디오 같은 멀티모달 데이터를 활용해 현실 세계를 더 정교하게 재현하고, 합성 데이터를 생성해 AI 학습을 가속화한다. 사용자가 문장이나 이미지를 입력하면 물리 법칙이 적용된 가상의 세계가 생성되고, 이 안에서 다양한 시뮬레이션을 수행할 수 있다.
<코스모스 활용 분야>
- 자율주행 차량: Uber, Waabi, XPENG, 현대차와 같은 주요 기업들은 이미 코스모스를 채택하여 자율주행 테스트에 필요한 풍부한 훈련 데이터를 생성하고 있다. 코스모스는 복잡한 도로 상황(예: 눈 덮인 도로, 사고 시나리오 등)을 합성 데이터로 재현할 수 있어, 자율주행 기술의 신뢰성과 확장성을 높이는데 기여한다.
- 로봇공학: 1X, Agility Robotics, Figure AI 등 로봇 기업들이 코스모스를 활용해 인간과 유사한 동작을 학습하거나 공장 자동화에 적용하고 있다. 이는 미국의 제조업, 물류, 의료 등 다양한 산업에서 로봇의 실용성을 크게 높일 것으로 예상된다.
- 디지털 트윈과 시뮬레이션: 코스모스는 엔비디아의 Omniverse 플랫폼과 결합하여 공장, 창고, 도시 등의 디지털 트윈을 생성하고, 이를 통해 물리 AI의 의사결정 과정을 최적화할 수 있다. 예를 들어, Foxconn은 코스모스와 Omniverse를 사용해 차세대 공장에서 인간형 로봇을 훈련시키고 있다.
<코스모스 구성 요소>
- NVIDIA AI 및 CUDA 가속 데이터 처리 파이프라인 (NeMo Curator 기반): 방대한 양의 비디오 데이터를 효율적으로 처리, 큐레이션, 라벨링하여 WFM 학습을 지원한다. 엔비디아는 Blackwell 플랫폼을 사용하여 "2천만 시간의 비디오를 14일 만에 처리, 큐레이션, 라벨링"할 수 있다고 밝혔는데, 이는 CPU 전용 파이프라인 대비 압도적인 속도이다.
- NVIDIA Cosmos 토크나이저: 이미지와 비디오를 토큰으로 변환하는 최첨단 비주얼 토크나이저로, 기존 토크나이저 대비 8배 더 많은 압축과 12배 더 빠른 처리 속도를 제공한다. 이는 WFM의 효율적인 학습 및 추론에 기여한다.
- NVIDIA NeMo 프레임워크: 효율적인 모델 훈련, 맞춤화, 최적화를 위한 프레임워크이다.
- 가드레일 및 워터마킹: 유해 콘텐츠 감소를 위한 가드레일과 AI 생성 콘텐츠 식별을 위한 보이지 않는 워터마크 기술을 포함하여 안전하고 책임감 있는 AI 개발을 지원한다.
그렇다면 코스모스를 지금 당장 적용할 수 있는 산업 분야는 어디일까? 바로 자동차 산업과 로봇산업이다. 먼저 자율주행을 위해서는 AI가 다양한 상황에 대처할 수 있도록 수많은 시뮬레이션과 학습이 필요하지만 실제 도로에서 테스트하는 것은 매우 위험하고, 공간 확보 및 활용에도 많은 비용과 시간이 소요된다.
하지만 월드 모델과 함께라면 개발자들이 가상으로 만들어진 세계에서 다양한 자율주행 상황을 시뮬레이션해 볼 수 있으며, 이를 통해 안전한 자율주행 자동차 개발에 필요한 시간을 획기적으로 단축할 수 있다. 엔비디아는 거의 모든 자율주행 자동차 회사가 사용할 기술을 개발하고 있다고 선언했으며, GM과의 협력 강화도 발표했다. 월드 모델인 코스모스를 활용하여 자율주행뿐 아니라 GM 공장 자동화 및 공장 로봇 개발에도 협력하기로 약속한 것이다. Waabi, Wayve, Foretellix, Uber 등 주요 자동차 및 모빌리티 기업들이 코스모스를 활용하여 자율주행 소프트웨어 개발, 시뮬레이션, 안전성 검증, 테스트 시나리오 생성 등에 활용하고 있다. 우버 CEO 다라 코스로샤히(Dara Khosrowshahi)는 "생성형 AI는 모빌리티의 미래를 주도할 것이며, 이를 위해서는 풍부한 데이터와 강력한 컴퓨팅이 모두 필요합니다. NVIDIA와의 협력을 통해 안전하고 확장 가능한 자율주행 솔루션을 업계에 제공할 수 있는 시기를 앞당길 수 있을 것이라 확신합니다."라고 언급했다.
엔비디아는 또한 시뮬레이션을 통해 로봇 훈련을 강화하도록 설계된 혁신적인 인공지능 모델인 "Cosmos-Transfer-1"을 출시했다. 2025년 3월 마지막주에 공개된 이 모델은 물리적 AI 기반 로보틱스 하드웨어를 강화하는 것을 목표로 하며 세분화 지도(segmentation maps), 깊이 지도(depth maps), 라이더(lidar) 스캔 등을 포함한 구조화된 비디오 입력을 처리하여 사실적인 비디오 출력을 생성한다. 이 출력들은 물리적 AI를 훈련하기 위한 학습 환경 역할을 하며, 더 효과적이고 현실감 있는 훈련 환경을 가능케 한다. 관심 있는 사용자는 Nvidia의 GitHub 및 Hugging Face 목록에서 Cosmos-Transfer 1을 다운로드할 수 있다.
문장과 이미지만으로 손쉽게 가상 세계를 만들 수 있는 코스모스는 물리적 AI 분야를 혁신하고 자율주행, 로보틱스 등 차세대 기술 발전을 가속화시킬 것으로 전망된다. 엔비디아 젠슨 황 CEO는 코스모스를 "자율주행과 로보틱스의 ChatGPT 순간"에 비유하면서 "대규모 언어 모델(LLM)이 텍스트 기반 AI를 혁신했듯이 WFMs가 물리적 AI 분야를 민주화하고 개발자들에게 새로운 가능성을 열어줄 것"이라고 강조했다.