'시뮬레이션 2.0' 시대의 개막, 엔비디아 DreamDojo

로봇이 세상을 배우는 방식이 달라지고 있다. 복잡한 물리 엔진과 사람이 직접 짜 넣은 동역학 코드 대신, 방대한 인간 행동 데이터가 그 자리를 대체하기 시작했다. 2026년 2월, NVIDIA는 로보틱스 AI 분야에 게임 체인저가 될 오픈소스 프로젝트인 'DreamDojo'를 공개했다. DreamDojo는 다양한 상호작용과 능숙한 제어를 학습하기 위해 44,000시간 분량의 1인칭 인간 비디오를 활용하는 모델로 세계 최대 규모의 로봇 월드모델이다.

NVIDIA 연구팀의 Jim Fan 박사는 이를 가리켜 '시뮬레이션 2.0'이라 명명했다. 기존 물리 엔진 기반의 '시뮬레이션 1.0'이 수작업 코딩과 완벽한 3D 모델을 필요로 했다면, 시뮬레이션 2.0은 인간의 행동 영상으로부터 직접 물리 법칙을 학습하고 픽셀 단위로 세상을 이해한다. 로봇에게 세상의 법칙을 공식으로 설명하는 대신 4만 4천 시간에 달하는 1인칭 인간 비디오를 보여준다. 비디오에는 사람이 걷고, 집고, 옮기고, 실패하는 장면까지 포함돼 있다. 모델은 이 데이터를 바탕으로 “행동하면 다음 장면이 어떻게 바뀌는지”를 학습한다. 모터 제어 신호가 입력되면, 신경망이 픽셀 단위로 미래를 그려낸다. 전통적 시뮬레이션을 예측 모델이 대체하는 구조다.

출처: DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos, NVIDIA

DreamDojo의 기술 혁신

DreamDojo의 기술적 혁신은 크게 3가지로 구분할 수 있다.

① 인간 영상 기반 사전학습 (Human Video Pretraining)

로봇 AI 개발의 가장 큰 병목은 데이터다. 로봇 전용 데이터 수집은 비용이 높고 속도가 느리며, 안전문제로 인한 초기화 시간이 막대하다. DreamDojo는 이문제를 근본적으로 해결하는 방식을 채택했다. DreamDojo-HV 데이터셋은 44,711시간 분량의 1인칭 시점 인간 행동영상으로 구성되어 있으며, 6,015개의 고유작업, 9,869개의 고유장면, 43,237개의 고유사물을 포함한다. 이는기존 가장 큰 로봇 학습 데이터셋 대비 지속 시간 15배, 스킬 다양성 96배, 장면 다양성 2,000배에 달하는 압도적 규모다. 인간은 이미 수십 년에 걸쳐 복잡한 물리 법칙(액체붓기, 옷개기, 도구사용 등)을 체득한 전문가다. DreamDojo는 이러한 풍부한 인간 지식을 로봇에게 이전함으로써 '상식적물리 이해'를갖춘 로봇 기반 모델을 만든다.

② 연속 잠재 행동 (Continuous Latent Actions)

인간 영상에는로봇 모터 명령이 없다. NVIDIA 연구팀은 이 간극을메우기 위해 시공간 트랜스포머 VAE(Variational Autoencoder) 기반의 '연속 잠재 행동(Continuous Latent Actions)' 기법을 개발했다. 이 시스템은 연속된 2개의프레임을 입력받아 32차원 잠재벡터를 추출한다. 이벡터는 두 프레임 사이의 가장 핵심적인 움직임 정보를 압축 표현하며, 행동과시각적 맥락을 분리(disentangle)하는 정보병목 구조를 형성한다. 덕분에 모델은 특정 로봇 하드웨어에 종속되지 않는 하드웨어-무관(hardware-agnostic) 범용 제어 인터페이스를 확보하게 된다. 2단계 학습 파이프라인도 혁신적이다. 1단계에서는 인간 영상으로 일반적인 물리 법칙을 사전학습하고, 2단계에서는 특정 로봇하드웨어에 맞춰 파인튜닝한다. Jim Fan은 이를 '세계가어떻게 보이고 작동하는지'와 '이 로봇이 어떻게 구동하는지'의 분리라고 설명한다.

③ 실시간 추론 증류 (Real-time Distillation)

월드모델의 가치는 속도에달려 있다. NVIDIA는 64대의 H100 GPU를 활용한 증류(distillation) 파이프라인을 개발하여 디노이징 단계를 35단계에서 4단계로 압축했다. 최종모델은 실시간 10.81 FPS로 작동하며 60초(600 프레임) 연속 롤아웃에서도 안정성을 유지한다.

출처: DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos, NVIDIA

확산 모델이란?

NVIDIA의 DreamDojo에서 활용된 '확산 모델(Diffusion Model) 기반의 세계 모델'은 로봇이 단순히 다음 동작을 계산하는 것을 넘어, "내가 이렇게 움직이면 세상이 어떻게 변할까?"를 고해상도 비디오로 상상해내는 고도의 시각적 시뮬레이터로 정의할 수 있다. 기존의 세계 모델은 주로 VAE(변분 오토인코더)나 RNN(순환 신경망)을 사용해 미래를 예측했는데 이런 방식은 예측이 길어질수록 화면이 흐릿해지거나(Blurring), 물리적으로 불가능한 장면을 만드는 한계가 있다. 반면 확산 모델은 노이즈 상태에서 서서히 이미지를 복구하며 정교한 결과물을 만든다. DreamDojo는 이를 통해 복잡한 물리적 상호작용(예: 손가락으로 작은 물체를 집는 동작)을 매우 사실적이고 일관성 있게 생성할 수 있다.

로봇의 월드 모델이 쓸모가 있으려면, 생성된 영상 속 물체가 갑자기 사라지거나 형태가 바뀌어서는 안되는데 DreamDojo는 이를 위해 다음 두 가지 기술을 사용한다.

3D 컨볼루션 및 어텐션: 단순히 이미지 한 장씩 만드는 것이 아니라, 시간 축을 포함한 비디오 블록 단위로 연산하여 프레임 간의 연결성을 유지한다.
비디오 확산 구조: 이전 프레임의 정보를 기억하고 이를 다음 프레임 생성의 가이드로 활용함으로써, 긴 시간 동안의 복잡한 움직임도 끊김 없이 예측한다.

DreamDojo는 이제 사람이 일일이 가상 환경(Simulator)을 코딩해줄 필요가 없음을 시사한다. 방대한 영상을 학습한 모델 자체가 스스로 물리 법칙을 이해하는 동적인 시뮬레이터가 되기 때문이다. 이는 로봇이 현실의 물리적 제약(중력, 마찰력, 물체의 강도 등)을 데이터로부터 직접 체득하게 함으로써, 더 정교한 조작 지능을 갖게 만드는 핵심 동력이 된다.

로봇 분야의 챗GPT 순간이 왔다?!

2025년 한 해에만 265억 달러가 유입된 로보틱스 투자 흐름 속에서, DreamDojo의 출현은 휴머노이드 플랫폼 상용화를 가속하는 촉매로 작용할 가능성이 크다. 데이터 접근성이 곧 개발 속도를 좌우하는 환경에서, 개방형 월드 모델은 진입 장벽을 낮추는 인프라가 된다.

젠슨 황이 말했듯, '로보틱스 분야의 ChatGPT 순간'은 이제 예고된 미래가 아닌 진행 중인 현실이다. DreamDojo는 로보틱스를 실험실 중심의 물리 엔진 시대에서 데이터 중심의 월드모델 시대로 전환시키는 분기점이다. 인간의 행동을 학습해 물리 세계를 ‘상상’하는 능력은 로봇을 단순 자동화 기계에서 추론하는 행위 주체로 격상시킨다. 이제 경쟁의 본질은 알고리즘 그 자체보다, 어떤 산업 데이터를 선점하고 얼마나 정교하게 도메인 특화 파인튜닝을 수행하느냐에 달려 있다. 결국 시뮬레이션 2.0은 산업의 비용 구조를 재편하고, 검증 방식을 바꾸며, 로봇 상용화의 속도를 근본적으로 앞당길 것이다. 결국 이는 기술 혁신을 넘어 산업 전략과 국가 경쟁력을 가르는 새로운 기준점이 되고 있다. 다만 장기적 성패는 잘 통제된 평가 환경이 아니라, 예측 불가능한 실제 세계에서의 전이(transfer) 성능이 좌우할 것이다. 신경 시뮬레이션이 아무리 정교해져도, 현장의 불확실성을 얼마나 견디느냐가 최종 시험대가 될 전망이다.

글: 투이컨설팅 디지털연구소