AI 생성 비디오 전쟁: 오픈AI 질주에 맞서 구글·런웨이 경쟁 가속화

최근 AI 생성 비디오 시장이 빠른 속도로 성장하고 있다. 포춘비즈니스인사이트에 따르면 글로벌 AI 생성 비디오 시장 규모는 2024 년에 6 억 6,480 만 달러를 기록했으며, 2025 년 7 억 6,680 만 달러에서 2032 년까지 25억 6,200만 달러로 증가하여 해당 기간 동안 20.0%의 CAGR을 기록할 것으로 예상된다.

텍스트, 이미지, 음성 등의 다양한 입력을 바탕으로 고품질의 동영상을 자동으로 생성하거나 편집할 수 있는 이 기술은 영화, 광고, 게임, SNS 콘텐츠 등 여러 산업에서 큰 관심을 받고 있다. 최근 기업들의 시각적 환경에 대한 수용이 증가함에 따라 비디오 콘텐츠 수요도 함께 증가하고 있으며, 이는 AI 비디오 생성기 기술의 발전을 가속화하고 있다. 이에 따라 구글, 오픈AI, 런웨이, 메타, xAI 등 인공지능 기업간 고품질의 비디오를 생성할 수 있는 AI 모델을 만들기 위한 경쟁이 치열해지고 있다. 이번 아티클에서는 오픈AI, 구글, 런웨이에서 출시한 최신 AI 생성 비디오 도구의 주요 특징과 기능에 대해 살펴본다.

Google Veo-2

구글은 2025년 4월, 최신 AI 동영상 생성 모델인 Veo-2를 구글 AI 스튜디오(Google AI Studio)를 통해 출시하였다. Veo-2는 물리적 움직임의 정확성과 긴 동영상의 일관성 유지에서 강점을 보이고 있다. 현재 AI 스튜디오와 VideoFX에서는 720p 해상도와 8초 길이로 제한된 출력이 제공되며, 풀 4K 성능은 추후 업데이트를 통해 점진적으로 구현될 예정이다. Google Cloud를 처음 이용하는 사용자에게 제공되는 300달러 크레딧을 이용하여 Veo-2를 테스트할 수 있지만, 개인 유저의 경우 예상보다 높은 비용이 청구될 수 있으므로 주의해야 한다.

<Veo-2 주요 기능>

아웃페인팅 (Outpainting): 기존 영상의 프레임 바깥 영역을 AI가 예측하여 확장하는 기능으로, 과거 영상의 해상도를 높이거나 가로 영상을 세로형 포맷에 맞게 확장하는 데 활용될 수 있다.
인페인팅 (Inpainting): 영상 내 특정 부분을 선택하여 삭제, 수정, 추가할 수 있는 기능으로, 영상 편집 작업의 효율성을 크게 높여줄 수 있다.
카메라 컨트롤 (Camera Control): 영상 제작 시 카메라 움직임을 제어할 수 있는 기능으로, 더욱 정교하고 원하는 연출을 가능하게 한다.
세로형 비율 지원: 기존 16:9 비율 외에 9:16 세로형 비율 제작을 지원하여 다양한 플랫폼에 최적화된 영상 제작이 가능해진다.
이미지-영상 변환: 시작 이미지와 끝 이미지 두 장을 첨부하면 AI가 중간 과정을 자연스러운 애니메이션으로 생성해준다.
영상 연장 (Extend): 기존 영상의 뒷부분을 자연스럽게 연장하여 영상 길이를 늘릴 수 있는 기능으로, 편집 활용도를 높여준다. 현재는 최대 8초 영상 제작이 가능하며, 추가 연장을 통해 최대 14초까지 제작 가능할 전망이다.

OpenAI Sora

OpenAI는 2024년 2월, 일부 사용자를 대상으로 Sora 베타 버전을 공개한 후, 2024년 12월 ChatGPT Plus 및 Pro 구독자를 대상으로 Sora를 공개했다. Sora는 OpenAI가 영상 생성 분야에 도전하기 위해 개발한 차세대 모델로, GPT 및 이미지 생성 모델에서 축적한 기술적 노하우를 바탕으로 영상 내러티브와 시각적 연속성을 동시에 달성할 수 있는 시스템이다. Sora는 텍스트 프롬프트를 기반으로 최대 1분 길이의 동영상을 생성할 수 있으며, 여러 캐릭터와 특정 유형의 동작, 피사체 및 배경의 세부 묘사를 통해 복잡한 장면을 구현할 수 있는 능력을 갖춘 것으로 평가되고 있다.

Sora의 주요 특징은 프롬프트로 사용된 언어를 정확히 이해하고 이를 동영상으로 변환하는 능력으로 OpenAI의 이미지 생성 AI 서비스인 달리3를 적용하여 텍스트 프롬프트를 캡션으로 변환하고 동영상 모델에 적용하는 과정에서 뛰어난 정확성을 보여준다. Sora는 최대 1080p 해상도의 20초 길이 비디오를 생성할 수 있으며, 사용자는 자신의 자산을 활용해 콘텐츠를 확장하거나 리믹스하고, 텍스트만으로 새로운 콘텐츠를 제작할 수도 있다. Adobe의 Firefly처럼, Sora는 기존 클립을 확장하거나 공백을 채우는 등 사용자의 필요에 맞는 콘텐츠를 생성할 수 있다.

ChatGPT 플러스(월 $20) 사용자에게는 최대 50개의 SD급(480p) 영상 제작 크레딧이 제공되며, ChatGPT 프로(월 $200) 사용자에게는 최대 500개의 HD급(1080p) 영상을 생성할 수 있는 크레딧이 제공된다.

Runway Gen-4

AI 스타트업 Runway는 2025년 4월 AI 생성 비디오 도구인 Gen-4를 전격 공개했다. Runway는 Gen-4가 장면 전반에 걸쳐 일관된 캐릭터, 장소 및 객체를 생성하고 “일관성 있는 세계 환경(coherent world environments)”을 유지하며, 장면 내에서 다양한 관점과 위치에서 요소를 재생성할 수 있다고 주장하고 있다.

Gen-4의 주요 특징은 콘텐츠 품질 및 일관성 유지, 사실적인 동작과 자연스러운 움직임 구현, 직관적인 인터페이스를 통한 쉬운 사용성 등으로 특히 장면, 캐릭터, 조명 등 모든 요소에서 일관된 품질을 유지하고, 다양한 환경에서도 스타일 일관성을 보장하는 능력이 뛰어나다는 평가를 받고 있다.

반면 Runway는 저작권이 있는 예술 작품을 허가 없이 자사 모델 훈련에 사용했다는 혐의를 받으며, 다른 생성 AI 기업들과 함께 예술가들이 제기한 소송에 직면해 있다. Runway는 ‘공정 사용(fair use)’이라는 원칙이 자사를 법적 책임으로부터 보호해 준다고 주장하지만, 아직 회사가 승소할지 여부는 확실하지 않다.

<주요 내용 요약>

항목	Google Veo‑2	OpenAI Sora	Runway Gen‑4
출시 시기	2025년 4월 – Google AI 스튜디오를 통해 정식 출시됨	베타: 2024년 2월 (일부 테스터 대상) 정식: 2024년 12월 (ChatGPT Plus/Pro 구독자 대상)	2025년 4월 – AI 생성 비디오 도구로 공개됨
영상 해상도 및 길이	- 현재: 720p 해상도, 최대 8초 길이 - 풀 4K 성능은 추후 업데이트를 통해 점진적으로 구현 예정	- 최대 1분 길이의 동영상 생성 가능 - ChatGPT Plus(월 $20): SD급(480p) 영상 제작 크레딧 제공 - ChatGPT Pro(월 $200): HD급(1080p) 영상 제작 크레딧 제공	일관된 콘텐츠 품질과 자연스러운 움직임 구현에 초점을 두며, 구체적인 해상도나 시간 제한에 대한 언급은 없으나 높은 수준의 영상 품질을 목표로 함
주요 기능	- 아웃페인팅 (Outpainting): 기존 영상 프레임 외부 영역 확장 - 인페인팅 (Inpainting): 영상 내 특정 부분 삭제, 수정, 추가 가능 - 카메라 컨트롤 (Camera Control): 정교한 카메라 움직임 제어 - 세로형 비율 지원: 9:16 세로 영상 제작 지원 - 이미지‑영상 변환: 시작·종료 이미지를 활용한 애니메이션 생성 - 영상 연장 (Extend): 최대 8초에서 14초까지 자연스럽게 연장	- 텍스트 프롬프트를 기반으로 내러티브와 시각적 연속성을 구현 - GPT 및 DALL·E 3 기술 등, 축적된 이미지 생성 기술을 동영상 모델에 적용하여 복잡한 장면 구성(여러 캐릭터, 동작, 배경 등) 가능	- 일관성 유지: 장면 전반에 걸쳐 캐릭터, 장소, 객체 등이 지속적으로 일관된 스타일과 품질 유지 - 다양한 관점 재생성: 다양한 시점 및 위치에서 요소 재생성 가능 - 직관적 인터페이스: 사용자가 쉽게 접근할 수 있는 인터페이스 제공 - 고품질 및 자연스러운 동작: 사실적인 동작과 자연스러운 움직임 구현에 중점
사용 비용	- Google Cloud 신규 사용자에게 $300 크레딧 제공 - 개인 유저의 경우 실제 사용 시 비용 주의 필요	- ChatGPT Plus(월 $20): 최대 50개 SD 영상 제작 크레딧 제공 - ChatGPT Pro(월 $200): 최대 500개 HD 영상 제작 크레딧 제공	가격 플랜 (Runway 대시보드 기준): - 스탠다드 플랜: 월 $15 - 프로 플랜: 월 $35 - 엔터프라이즈 플랜: 연간 $1500 *추가 사용량은 별도 과금(usage-based billing) 적용

오픈AI, 구글 외에도 메타, 어도비 등 주요 빅테크 기업들이 AI 영상 생성 시장에서 경쟁하고 있다. 메타는 '무비 젠(Movie Gen)'이라는 동영상 생성형 AI 모델을 개발했으며, 이 모델은 최대 16초 길이의 동영상을 생성하고 자연어를 활용해 기존 동영상을 편집하거나 특정 인물의 사진을 업로드하여 영상을 생성할 수 있다. 메타는 "Movie Gen은 물체의 움직임, 피사체와 물체의 상호 작용, 카메라의 움직임을 추론할 수 있으며 다양한 개념에 대해 그럴듯한 동작을 학습할 수 있어 해당 카테고리에서 최첨단 모델이라고 할 수 있다."고 밝혔다.

또한 어도비는 '파이어플라이 비디오(Firefly Video)'라는 AI 생성 비디오 모델을 공개했는데 이 모델은 사용자가 입력한 텍스트나 이미지를 바탕으로 실제 영상을 생성하고, '생성형 확장' 기능을 통해 촬영한 영상의 공백을 자동으로 채워주는 기능을 제공한다. 어도비는 이 모델을 '프리미어 프로'와 같은 동영상 편집 툴에 적용하여 전문가의 작업 생산성을 높이는 데 초점을 맞추고 있다.

미국 엔터 분야 10만 개 이상 일자리에 영향

AI 생성 비디오 시장은 앞으로도 계속해서 성장할 것으로 예상되며, 기술의 발전과 함께 더욱 다양한 분야에서 활용될 것으로 기대된다. 특히 콘텐츠 제작의 민주화와 효율성 향상은 AI 생성 비디오 기술이 가져올 주요 변화 중 하나로, 전 세계 창작자들에게 새로운 가능성을 열어줄 것으로 보인다.

하지만 생성 AI 비디오 도구는 영화 및 TV 산업 분야 일자리 감소에도 큰 변화를 몰고 올 것으로 예상된다. 헐리우드 애니메이터와 만화가를 대변하는 노동조합인 Animation Guild가 의뢰한 2024년 조사에 따르면, AI를 채택한 영화 제작사들의 75%가 기술 도입 이후 해당 분야 일자리를 축소, 통합 또는 폐지한 것으로 나타났다. 이번 조사에서는 또한 2026년까지 미국 엔터테인먼트 분야에서 10만 개 이상의 일자리가 생성 AI로 인해 영향을 받을 것으로 전망되고 있어 이에 대한 대책이 시급한 상황이다.

글: 투이컨설팅 디지털연구소