피규어 AI, 로봇용 AI 모델 헬릭스(Helix) 공개
투이컨설팅 디지털연구소
창업 4년차 로봇 스타트업 피규어가 가정에서 가사업무를 도와주는 AI 모델인 헬릭스(Helix)를 공개했습니다. 헬릭스는 인지, 언어 이해, 학습된 제어를 통합하여 로봇 공학의 오랜 과제를 해결하는 비전-언어-행동(VLA, Vision-Language-Action) 모델로 사전에 특정 교육이나 프로그래밍 없이도 자연어 명령을 해석하고 이전에 본 적 없는 물체들을 조작할 수 있게 하는 새로운 이중 시스템 AI 아키텍처가 적용되었습니다.
기존에 공개된 로봇과 달리, Helix를 탑재한 로봇은 이전에는 한 번도 본 적 없는 물체를 집어들고, 다른 로봇과 물건을 주고 받으면서 식료품을 냉장고의 올바른 위치에 정리할 수 있습니다. VLA는 로보틱스 분야의 새로운 트렌드로 시각과 언어 명령을 활용해 정보를 처리합니다. 현재 이 분야에서 가장 잘 알려진 사례는 Google DeepMind의 RT-2로, 이는 비디오와 대형 언어 모델(LLM)을 결합해 로봇을 훈련시킵니다.
헬릭스 역시 이와 유사한 방식으로 작동하며, 시각 데이터와 언어 프롬프트를 결합해 로봇을 실시간으로 제어합니다. 피규어측은 “Helix는 강력한 객체 일반화를 보여주며, 훈련에서 한 번도 접해보지 못한 다양한 모양, 크기, 색상, 재질의 수천 가지 새로운 가정용 물건을 자연어로 요청하기만 해도 집어 올릴 수 있다”고 설명합니다.
참고로 피규어는 캘리포니아 서니베일에 본사를 둔 스타트업으로 보스턴 다이내믹스, 테슬라, 구글 딥마인드, 아처 항공 출신의 전문가들로 구성되었습니다. 피규어 AI 창립자이자 CEO인 브렛 애드콕(Brett Adcock)은 피규어 창립 전에 수직 이착륙 항공기를 만드는 항공우주 회사인 Archer Aviation을 설립해 뉴욕증권거래소에 상장시킨 경험을 가지고 있습니다.
해외 외신에 따르면 피규어는 현재 395억 달러의 기업가치로 15억 달러 규모의 대규모 투자 라운드를 진행 중인 것으로 전해졌습니다. 이는 2024년 6억 7500만 달러 규모의 시리즈 B 투자 후 26억 달러의 포스트 밸류에이션보다 무려 15배 높은 수치입니다.
그동안 피규어는 피규어 01과 02 모델과 같은 제조공장에서 사람과 협업할 수 있는 산업용 로봇 개발에 집중해 왔습니다. 하지만 이제 헬릭스를 통해 가정용 로봇 시장으로의 진출을 본격 선언한 것입니다. 아래 영상에서는 Helix를 탑재한 두 대의 피규어 로봇이 등장해서 계란, 과일, 케첩과 같은 일반적인 식료품을 제시받고 이들을 어디에 두어야 할지 파악하는 과제를 수행합니다. 광범위한 프로그래밍이나 수천 개의 사전 기록된 예시가 필요한 기존 로봇들과 달리, Helix는 이 로봇들이 환경과 자연어 명령을 바탕으로 실시간 결정을 내릴 수 있습니다.
- 전체 상반신 제어: 헬릭스는 손목, 상체, 머리, 개별 손가락을 포함한 인간형 로봇의 전체 상반신을 고속 연속 제어할 수 있는 최초의 VLA(Visual Language Action)모델입니다.
- 다중 로봇 협업: 헬릭스는 두 대의 로봇에서 동시에 작동하는 최초의 VLA 모델로, 이전에 본 적 없는 물체를 다루면서 장기적인 조작 작업을 공동으로 해결할 수 있습니다.
- 무엇이든 집어들기: 헬릭스를 탑재한 Figure 로봇은 자연어 프롬프트만으로도 이제 수천 개의 새로운 소형 가정용 물체를 집을 수 있습니다.
- 단일 신경망: 기존 접근 방식과 달리, 헬릭스는 모든 동작(물체 집기 및 놓기, 서랍 및 냉장고 사용, 로봇 간 상호작용 등)을 별도의 작업별 미세 조정 없이 하나의 신경망 가중치를 사용하여 학습합니다.
인간형 로봇 공학의 새로운 확장성
복잡한 주방이나 거실은 로봇이 맡은 역할을 수행하기 매우 어려운 환경입니다. 가정에는 깨지기 쉬운 유리잔, 구겨진 옷, 흩어진 장난감 등 예측할 수 없는 형태, 크기, 색상, 질감을 가진 수많은 물체가 존재합니다. 가정에서 유용한 가사용 로봇이 되려면, 이전에 본 적 없는 물체라도 즉시 새로운 동작을 생성할 수 있어야 합니다.
하지만 기존의 로봇 공학 지식으로는 가정에서의 사용이 제한될 수 밖에 없습니다. 새로운 동작을 하나만 가르치는 데도 상당한 인간의 노력이 필요합니다. 박사급 전문가가 수작업으로 프로그래밍하거나 수천 번의 시연을 제공해야 하며, 이는 현실적으로 불가능할 정도로 비용이 높습니다.
기존의 로봇 모방 학습에서는 데이터 수집을 통해 기술이 확장되지만 헬릭스를 사용하면, 단순히 언어로 지시하는 것만으로도 새로운 기술을 즉석에서 지정할 수 있습니다. 기존에 수백 번의 시연이 필요했던 새로운 기술도 단순히 자연어로 로봇에게 말하는 것만으로 즉시 얻을 수 있습니다. 헬릭스는 로봇의 상반신 전체를 고속으로 정교하게 제어하는 최초의 "시스템 1, 시스템 2" VLA 모델로 아래의 두 가지 상호 보완적인 시스템을 통해 이 문제를 해결하며, 이들은 통합적으로 학습됩니다.
- 시스템 2 (S2): 장면 이해와 언어 이해를 위해 7-9 Hz로 작동하는 온보드 인터넷 사전 학습 VLM으로, 객체와 맥락 전반에 걸친 광범위한 일반화를 가능하게 함
- 시스템 1 (S1): S2에서 생성된 잠재 의미 표현을 200 Hz로 정밀한 연속 로봇 동작으로 변환하는 빠른 반응형 시각운동 정책(visuomotor policy)
이러한 분리된 아키텍처 덕분에 각 시스템은 최적의 시간 척도로 작동할 수 있습니다. S2는 높은 수준의 목표를 "천천히 생각"할 수 있으며, S1은 실시간으로 동작을 실행하고 조정하는 "빠른 사고"를 수행할 수 있습니다.
헬릭스의 장점
- 속도와 일반화: 헬릭스는 단일 작업 모방 학습 정책과 동일한 속도를 유지하면서도 수천 개의 새로운 객체에 대해 즉각적인 일반화를 수행합니다.
- 확장성: 헬릭스는 고차원 연속 제어를 직접 출력하여, 기존 VLA 접근 방식에서 사용된 복잡한 액션 토큰화 없이도 고차원 인간형 제어를 가능하게 합니다.
- 단순한 아키텍처: 헬릭스는 개방형 가중치를 가진 VLM(S2)과 간단한 Transformer 기반 비주모터 정책(S1)으로 구성됩니다.
- 역할 분리: S1과 S2를 분리함으로써, 통합된 관찰 공간이나 행동 표현을 강제할 필요 없이 각 시스템을 독립적으로 개선할 수 있습니다.
특징 | 헬릭스 (피규어 AI) | 보스턴 다이내믹스 | 테슬라 로봇 |
---|---|---|---|
개발사 및 목적 | 피규어 AI – 가정 내 생활 보조 및 엔터테인먼트 중심 | 보스턴 다이내믹스 – 산업, 연구, 군사 등 특수 환경에서의 임무 수행에 초점 | 테슬라 – 제조업, 공장 자동화 및 가정 보조를 위한 다목적 자동화 기술 적용 |
디자인 및 형태 | 가정 친화적, 소형 및 인체공학적 디자인으로 사용자 일상에 자연스럽게 녹아들도록 설계됨 | 사족보행(Spot) 또는 인간형(Atlas) 등, 임무 수행을 위한 기계적 구조와 내구성 중시 | 인간형 로봇(Optimus) – 사람과 유사한 외형으로, 인간의 동작 모방에 집중 |
이동 및 동작 능력 | 안전하고 안정적인 가정 내 주행, 장애물 회피 및 정교한 네비게이션 기능 제공 | 다양한 지형에서 뛰어난 기동성과 복잡한 동작(달리기, 점프, 계단 오르기 등) 구현 | 기본적인 보행 및 작업 동작에 최적화, 비교적 단순화된 이동 메커니즘 |
AI 및 상호작용 기능 | 사용자 친화적 인터페이스, 자연어 처리, 얼굴 인식 및 스마트홈 시스템과의 연동 등 고도화된 AI 기능 탑재 | 자율 주행 및 임무 수행 중심, 센서와 알고리즘을 통한 환경 인지에 집중, 상호작용은 제한적 | 테슬라의 자율주행 및 AI 기술을 응용, 고급 센서와 데이터 처리로 작업 자동화에 초점 |
활용 분야 | 청소, 보안, 엔터테인먼트 등 가정 내 다양한 생활 보조 서비스 제공 | 건설, 보안, 군사, 연구 등 특수 목적의 환경에서 임무 수행 | 공장 자동화, 제조업 지원 및 가정 보조 등 다방면에서 활용 가능 |
기술적 한계와 향후 과제
피규어AI는 2026년까지 모델 매개변수를 700B 규모로 확장하고, 훈련 데이터를 50,000시간으로 증가시킬 계획을 발표하고 이를 통해 다리 관절 제어 통합 및 60분 이상의 장기 계획 수립 능력을 추가할 예정입니다.
하지만 가정용 로봇의 상용화까지는 아직도 많은 기술적 한계가 존재합니다. 이중 시스템 구조는 150~200ms의 고정 지연을 유발하며, 동적 장애물 회피 시 최대 30%의 에너지 효율 저하가 발생합니다. 또한 2kg 이상의 무게를 지닌 물체 조작 시 그립 성공률이 68%로 감소하는 등 하중 처리 능력 개선이 필요합니다.
또한 집집마다 다른 주방 환경과 언제든지 등장할 수 있는 수많은 변수들도 로봇이 인식하기에는 한계가 있습니다. 해외 언론에서는 헬릭스를 탑재한 가사 도우미 로봇의 등장은 이제 시작단계이며 헬릭스의 공개는 회사가 유망한 엔지니어를 채용하기 위한 일종의 리쿠르팅 도구라고 평가하기도 합니다.
헬릭스와 같은 로봇용 AI 모델은 휴머노이드 로봇의 자율성과 유연성을 혁신적으로 향상시킨 일종의 트리거로 이중 시스템 아키텍처와 효율적인 엔드투엔드 학습 전략은 산업용 로봇의 한계를 넘어 가정용 로봇의 미래를 제시했다는 점에서 의의가 있다고 할 수 있습니다. 앞으로 피규어가 가정용 휴머노이드 로봇의 상용화 시대를 앞당길 핵심 기업으로 자리매김하길 기대해 봅니다.