디지털 시대의 유산: 데이터 보존과 복원을 위한 필수 전략
투이컨설팅 PSB 김원일
지난 2023년 영화 ‘만추’가 극장 재개봉 되었다. ‘만추’는 2010년 개봉된 영화지만 대단히 세련되었고, 특히 주인공인 현빈과 탕웨이는 15년 전이나 지금이나 똑같은 모습이기에 일단 관람을 시작하면 15년 전 영화라는 생각이 들지 않는다. 사실 이 ‘만추’는 1966년 신성일, 문정숙 주연의 동명의 영화 ‘만추’를 리메이크 한 영화였다. 현빈과 탕웨이가 출연하는 2010년의 ‘만추’를 좋아했던 관객들 중에는 분명 1966년의 ‘만추’와 비교해 보고 싶었던 이들도 있었을 것이다. 그러나 우리는 두 영화를 비교할 수 없다. 아날로그 시대에 필름으로 제작되었던 만추는 그 필름이 분실되는 바람에 지상에서 완전히 사라져 버렸기 때문이다. 이제 지구상에서 1966년 ‘만추’를 볼 수 있는 방법은 없다.
아날로그 영화 필름을 보관하는 일은 매우 어렵다. 2시간 분량의 영화 컨텐츠를 담고 있는 영화 필름은 부피가 크고 무거울 뿐 아니라 좋은 화질을 유지하기 위해 적당한 온도와 습도가 유지되는 방에서 보관되어야만 한다. 과거에는 필름 보관 방법에 무지했기 때문에 ‘만추’ 뿐 아니라 우리나라 최초의 영화로 알려진 ‘아리랑’ 등 수많은 한국 영화들이 분실되거나 훼손되었고, 우리는 이들 영화를 영원히 볼 수 없게 되었다. 영화 필름을 보관하던 사람들은 공간이 부족해 질 때 마다 오래된 필름들부터 폐기하였고, 휴지통이나 소각장에서 영화 필름을 주운 사람들은 영화 필름을 모자의 테두리 장식으로 만들어 판매하게도 했다. 영화 데이터의 가치를 모르던 시절에 일어났던 일이다.
1980년대에 비디오라고 불리우던 VHS(Video Home System)가 등장하면서 영화를 보는 일이 쉬워졌고, 그 전까지는 상상도 할 수 없었던 개인이 영화를 소장하는 일이 가능해 졌다. 사람들은 TV에서 방영되는 영화를 녹화해서 보관하거나, 소장용으로 출시된 비디오를 구매하기도 했다. 2000년대 초반에는 VHS 덕택에 ‘만추’처럼 영원히 분실할 뻔 했던 ‘로보트 태권V’가 복원되었다. 많은 사람들이 ‘로보트 태권V’의 VHS 녹화본을 소장하고 있었기에 가능했던 일이다. 만일 VHS가 더 일찍 보급되었더라면 우리는 ‘만추’를 분실하지 않았을지도 모른다.
VHS가 집집마다 보급이 되면서 극장 개봉이 아닌 비디오 출시만을 목표로 한 저 예산 액션영화들도 많이 제작되었다. 신시아 로즈락 – 우리 나라에는 ‘나부락’이란 이름으로 알려졌다 - 이나 제프 스피크먼 같은 배우들은 비디오 시장에서 일류 헐리웃 스타들 만큼의 인기를 누리기도 했다. 하지만 VHS 영화들과 VHS 스타들은 VHS가 사라지면서 사람들의 기억에서도 사라졌다. 만일 누군가 이들 영화와 배우들을 좋아하여 이들이 출연한 영화의 비디오 테이프를 아직도 소장하고 있더라도 이 컨텐츠를 재생시킬 수 있는 비디오 플레이어를 구하기가 힘들 것이다. 몇몇 가정에서는 여전히 VHS 플레이어들을 사용하고 있고 중고 시장에서 VHS 플레이어를 구매할 수도 있지만 주요 가전제품 제조사들은 VHS 생산을 중단한지 오래다. 정상 동작하는 VHS 플레이어가 있더라도 VHS에 저장된 아날로그 영화 데이터는 시간이 흐를수록 화질이 손상되므로 지상에 존재하는 모든 VHS는 사라질 운명이다.
다행히도 VHS에 담겨있던 컨텐츠들 중 일부는 살아남았다. VHS와 DVD가 공존하던 시절이 잠깐 있었기 때문에 VHS의 컨텐츠 중 상품성이 뛰어난 컨텐츠들은 DVD 포맷으로 변경되었다. 가전제품 제조사들은 여전히 DVD 플레이어들을 생산하고 있기 때문에 우리는 당분간 DVD를 볼 수 있다. 하지만 DVD의 운명도 결국 아날로그 필름이나 VHS의 운명과 다를 바가 없을 것이라 추측한다. 이미 CD/DVD-ROM 드라이브는 PC에서 없어졌다.
또한 요즘 대부분의 사람들은 영화 관람시 DVD보다 파일 다운로드를 선호한다. 불과 몇년전 까지만 해도 DVD로 출시된 영화는 출시와 동시에 다운로드가 가능한 파일 포맷으로 변환되어 누군가의 스토리지 저장되었다. 하지만 그 시대도 이제 종말을 맞이하는 중이다. 언제든 원하는 영화를 무료, 혹은 매우 저렴한 가격으로 구매 후 재생할 수 있는 OTT 서비스가 등장했기 때문이다. 모든 가전 회사들이 DVD 플레이어의 생산을 중단하기로 결정하는 순간 DVD도 VHS처럼 사라지고, DVD롬 안에 담겨있는 컨텐츠들은 복원하는 일은 어렵게 될 것이다.
영화 파일의 사이즈는 문서나 사진 파일과는 비교할 수 없을 정로도 용량이 크다. 그럼에도 불구하고 영화를 파일로 변환하여 PC에 저장될 수 있었던 이유 중 하나는 저장장치의 가격이 저렴해졌기 때문이다. 1980년에는 1GB의 데이터를 저장하기 위해서는 40,000달러가 필요했다. 지금은 AWS S3 Glacier를 사용할 경우 1년에 0.02달러 미만으로 1GB 데이터를 1년동안 저장할 수 있다. 저장장치의 비용이 저렴해지면서 가정에서는 미디어 데이터를 디지털로 변환하여 저장장치에 저장하고, 기업에서는 빅 데이터 시스템이 엔터프라이즈 컴퓨팅 환경에 도입되었다. 값싼 저장장치 덕택에 과도한 데이터 수집이 가능해졌고, 이렇게 과도하게 수집된 데이터들 덕택에 인공지능 AI도 탄생할 수 있었다. 데이터를 21세기의 석유(oil)라고 하기에 빠짐없이 저장하려고 하지만 저장 장치가 비싸다면 우리는 함부로 데이터를 저장할 수 없었을 것이다.
부작용도 있다. 저장 장치가 저렴해진 까닭에 우리는 저장할 데이터를 취사 선택하고 분류할 필요성을 상실했다. 모든 데이터들은 발생되는 즉시 저장장치에 보관된다. 데이터를 정재하고 검색하고 인덱싱하고, 데이터 간 연관관계를 파악하여 데이터를 보다 가치 있게 만드는 작업은 사람이 아니라 솔루션이 대신 수행한다. 데이터가 방대해 지면서 이제 우리는 어떤 데이터가 어떤 형식으로 어느 공간에 저장되어 있는지 이제 이해하기 어렵게 되었다.
이렇게 저장된 데이터를 복원하기 위해서는 데이터의 표준을 지원하는 복원장치가 있어야 하건만, 데이터의 표준은 계속 변경되고, 그 데이터를 복원할 수 있는 하드웨어와 소프트웨어도 버전업이 되거나 아니면 한 때 유행했던 표준이 다른 표준으로 어느 순간 바뀌어 버리기도 한다. 현재 우리는 한글과 마이크로소프트의 워드 이외의 워드 작성 소프트웨어를 사용하지 않는 것을 당연하게 생각하고 있지만 한 때 대한민국의 모든 공공기관은 ‘하나 워드 프로세서’라는 소프트웨어를 사용했고, 삼성 그룹의 표준 워드 소프트웨어는 ‘훈민정음’이었다. 하지만 이제 그 훈민정음 소프트웨어도, 훈민정음 소프트웨어를 사용하여 작성한 파일도 찾아볼 수 없다.
TCP/IP를 개발하고, 인터넷의 아버지로 불리우는 빈튼 서프(Vinton Cerf)는 “우리가 살고 있는 시대는 잊혀진 시대, 아니면 잊혀진 세기가 될 수 있다.”고 말했다. 그는 “디지털 지속성 전략”이 없다면 지금 저장되어 있는 디지털 정보들은 미래에 해독할 수 없는, 디지털 암흑 시대 (Digital Dark Age)가 될 수도 있다고 예측한 것이다. 그러면서 현재의 데이터를 미래에도 지속적으로 복원할 수 있도록 하는 디지털 지속성 전략에 대해 다음과 같이 설명했다.
1. 지속 가능한 파일 형식 사용
빈튼 서프는 디지털 데이터가 특정 파일 형식에 의존하기 때문에, 시간이 지나면 해당 형식을 지원하는 소프트웨어가 더 이상 존재하지 않을 수 있다고 경고했다. 따라서, 범용적이고 오랜 시간 지원 가능한 파일 형식을 사용하거나, 주기적으로 최신 형식으로 변환하여 호환성을 유지하는 것이 필요하다.
2. 물리적 매체에 대한 의존 최소화
디지털 저장 매체(예: CD, 하드 드라이브 등)는 시간이 지남에 따라 변형되거나 손상될 수 있으므로, 이를 대신할 수 있는 클라우드 저장소 또는 안전한 데이터 센터에 데이터를 보관하는 것을 추천했다. 이러한 방식은 하드웨어 고장이나 저장 매체의 진화로 인한 데이터 손실을 방지할 수 있다.
3. 주기적 백업과 데이터 이동
디지털 데이터는 시간에 따라 “데이터 부식(data rot)”이 발생하거나 손상될 수 있다. 따라서 주기적으로 백업을 수행하고, 최신 매체로 데이터를 이동해 저장하는 것이 중요하다. 이러한 방식으로 데이터의 일관성과 가용성을 보장할 수 있다.
4. 물리적 인쇄본 보관
특히 소중한 개인 사진이나 기록의 경우, 디지털 파일로만 저장하지 말고 인쇄해 물리적 형태로 보관하는 것이 좋다고 조언했다. 이를 통해 디지털 저장 장치의 실패나 파일 형식의 변화에 상관없이 보존이 가능하다.
이러한 디지털 지속성 전략 하에 미국의 국립문서보관소(NARA)는 "ERA(Electronic Records Archives)" 프로그램을 운영하고 있다. NARA는 디지털 기록을 지속적으로 접근할 수 있도록 하고, 파일 포맷의 변화나 데이터 부식(data rot) 같은 문제를 해결하기 위해 다양한 파일 포맷을 수용하고 주기적인 데이터 마이그레이션을 시행한다.
또한 영국 도서관(British Library)도 "디지털 보존 전략(Digital Preservation Strategy)"을 통해 자국의 문화유산과 관련된 디지털 자료를 장기적으로 보존하고 관리한다. 이들은 문서, 이미지, 오디오, 비디오 자료 등 다양한 형태의 디지털 자산을 보관하며, 주기적인 파일 형식 전환과 다중 백업을 통해 데이터의 지속성을 보장하고 있다.
이처럼 장기적으로 디지털 지속성 전략을 수립하고 이행하는 것은CDO(Chief Data Officer)의 중요한 역할 중 하나가 될 것이다.
한 때 소모품처럼 사용되던 플로피디스크들도 모두 사라졌고, 소위 “CD를 굽는” 행위는 이제 아무도 하지 않는다. 플로피디스크와 CD를 재생시킬 수 있는 하드웨어가 없기 때문에 플로피 디스크나 CD 미디어 안에 저장된 데이터를 해독해 낼 수가 없다. 과거에 CD를 맹신했던 것처럼 현재 우리는 저렴해진 스토리지 장치들과 서비스들을 맹신하고 있고, 모든 데이터를 스토리지에 저장하고 지켜보지 않고 있다. 이 행위를 계속 반복해서 하게 된다면 언젠가 저장된 데이터들은 고립되어 영원히 복원 불가능한 순간을 맞이할 수 있다. 조직이 적절한 디지털 지속성 전략을 수립하지 않는다면 이 시대 우리가 대용량 스토리지에 저장하고 있는 데이터들은 100년 후 미래에서는 조선왕조실록과 팔만대장경보다 더 복원하기 어려운 데이터가 될 지도 모른다. 디지털 지속성 전략이 필요한 이 시대, 비튼 서프는 우리들에게 다음과 같이 마지막으로 조언한다.