데이터 품질의 국제표준 ISO 8000 – 표준의 구성(1편)

투이컨설팅 NIB 이진우

데이터 전쟁

경쟁이 심해지고 환경 또한 급변하는 불확실성의 시대를 맞이하면서 데이터에 대한 의존도가 높아지고 있다. 고객과 시장을 예측하고 미래를 대비하는 전략 수립 과정에서 데이터를 활용한 과학적 분석이 새로운 대안으로 떠오르고 있기 때문이다. 얼마나 많은 데이터를 수집하는지 혹은 데이터를 이용하여 어떻게 유용한 모형을 만들어내는지가 조직의 존폐를 결정하는 중요한 요소로 자리매김하고 있다. 특히 각 분야에서 AI 기술이 폭넓게 접목되면서 경쟁력 있는 알고리즘을 개발하고 이를 활용하기 위한 다양하고 방대한 데이터의 필요성이 더욱 증가하고 있다. 이에 따라 기업뿐 아니라 공공 영역에서도 데이터 수집과 활용 역량 확보를 위한 치열한 경쟁이 벌어지고 있다.

언론보도 혹은 비공식 매체들을 통해 퍼져 나가는 데이터 활용 사례는 데이터 없이 미래를 장담할 수 없다는 분위기를 조성하고 있다. 예를 들어 의류업계는 신상품 출시에 수 일밖에 걸리지 않는 Ultra Fast Fashion의 시대를 맞이하고 있다. 시장 동향을 파악하고 디자인, 생산, 유통, 판매를 효율적으로 관리하기 위한 실시간 데이터 분석 및 활용이 이루어지지 않는다면 신속한 신상품 개발 및 공급은 불가능하다. 유행이 수시로 변하는 의류업계에서 디자인보다 속도가 중요해지면서, 디자이너보다 데이터 분석가의 역량이 핵심적인 경쟁력으로 떠오르고 있다. 의류업체는 제조업체에서 데이터 기업으로 변신해야만 살아남을 수 있는 상황에 처해있다. 데이터를 통한 경쟁은 업종이나 분야에 관계없이 광범위하게 벌어지는 현상이다.

국내 데이터 관련 시장 규모는 2조원 이상으로 추정되며 연간 10%에 달하는 고속 성장이 이루어지고 있다. 수요에 비해 턱없이 부족한 데이터 분석 인력에 대한 가치도 급등하고 있다. 데이터뿐 아니라 데이터 인력 확보에서 소리 없는 전쟁이 벌어지고 있다

데이터 품질의 중요성

데이터 활용이 증가하면서 품질에 대한 관심도 높아지고 있다. 정확한 데이터가 입력되어야만 신뢰할 수 있는 분석 결과가 나오기 때문이다. 수집된 데이터가 모두 정확하다고 가정한다면 이는 오산이다. 수집 환경이나 사람에 따라 데이터 품질에 차이가 발생하기도 하고, 획득 시점에는 중요하지 않지만 사용에는 필수적인 정보가 누락되는 경우도 흔하게 발생한다. 특히 데이터는 사용하는 시점이나 의도에 따라 적합성이 달라질 수 있다. 환율이나 기후와 같이 수시로 변하는 정보는 실시간으로 갱신된 데이터가 필요하며, 목적에 맞는 시점의 데이터가 활용되어야 한다.

너무나 당연한 이야기이지만 좋은 데이터는 좋은 결과를 산출하고, 나쁜 데이터는 잘못된 결정이 이루어지는 원인이 된다. 그러므로 데이터 활용에 앞서 품질에 대한 점검이 선행되어야 한다. 많은 데이터도 중요하지만 정확한 데이터가 더 중요하다. 그리고 정확한 데이터도 분석 목적에 맞게 적합하게 활용되어야만 유용한 결과를 산출해낼 수 있다.

품질이 좋은지 혹은 나쁜지를 판단하기 위해서는 기준이 필요하다. 특정 기준을 통과하면 품질이 확보되었다고 할 수 있고, 기준에 미달하면 품질을 신뢰할 수 없다고 판단해야 한다. 그러므로 품질의 시작은 점검 기준의 설정이라고 할 수 있다. 데이터 품질에 민감하다면 반드시 품질 기준을 가지고 있어야 한다. 그리고 데이터 활용에 앞서 품질 기준을 통과하는 데이터를 선별하는 과정을 거쳐야 한다. 하지만 품질의 중요성을 인식하지 못하고 데이터 품질 기준조차 존재하지 않는 상황에서 데이터 활용이 이루어지는 경우에는 분석 결과를 신뢰하고 활용할 수 없다. 분석 알고리즘 혹은 활용 메커니즘에 아무리 많은 노력을 들이더라도 정작 데이터 품질 확보에 소홀하다면 결국 모래 위에 성을 쌓는 것처럼 위험한 상황이 벌어진다.

데이터 품질 기준

그렇다면 데이터 품질을 결정하는 기준은 무엇인가? 어떤 상태를 유지해야 데이터를 신뢰하고 활용할 수 있을까? 사실 이 질문에 대하여 답하기는 쉽지 않다. 모든 데이터에 일괄적으로 적용할 수 있는 품질 기준이 있으면 좋겠지만 현실적으로는 불가능한 바람이다. 데이터의 종류가 많고 활용하는 상황이 달라 품질 기준이 천차만별이기 때문이다.

예를 들어 생선의 품질을 점검한다고 할 때, 회를 위한 품질과 찌개를 위한 품질은 분명히 다르다. 회의 경우에도 등푸른 생선과 흰살 생선의 기준은 다르다. 등푸른 생선은 금방 부패하기 때문에 더 놓은 신선도가 요구되지만 흰살 생선은 상대적으로 낮은 기준이 적용된다. 하지만 적어도 생선의 품질을 확인하기 위하여, 신선도, 크기, 원산지등과 같은 품질 속성을 활용할 수 있다.

생선과 마찬가지로 데이터의 경우에도 이러한 품질 속성을 설정할 수 있다. 정확성, 일관성, 적시성, 유용성 등이 이러한 품질 속성에 속한다. 정확성은 실제 발생한 사실을 그대로 반영하고 있는지에 대한 판단이고, 일관성은 서로 모순이 없는지를 확인하는 품질 속성이다. 적시성은 데이터가 필요한 시점에 제공되는지 여부이고, 유용성은 활용의 효과가 발휘될 수 있는지에 대한 품질 속성이다. 이외에도 적합성, 정밀성, 완전성 등 품질 속성은 여러가지 존재한다.

데이터 품질 표준

데이터 활용이 증가하면서 품질 기준에 대한 수요도 높아지고 있다. 데이터와 상황에 따라 다르다고 해도 데이터 품질을 판단할 수 있는 어느 정도의 기반은 필요하다 이를 위해 국내에서도 품질 표준을 만드는 활동이 전개되었다. 한국데이터산업진흥원은 데이터 품질 속성을 정확성, 일관성, 유용성, 접근성, 적시성, 보안성 등 6개로 정의하여 품질 관리가 효율적으로 이루어지도록 전파하고 있으며 품질 인증에도 활용하고 있다.

같은 시기 국제적으로도 데이터 품질에 대한 관심이 높아지면서 표준 제정을 위한 협의가 시작되었다. 국제표준은 ISO(International Organization for Standardization)를 중심으로 이루어진다. ISO은 국가 간 협의체로서 각 국가에서 표준을 담당하는 대표기관이 참여하여 국제적으로 통용될 표준을 정의하고 보급하는 활동을 벌이고 있다. 한국에서는 산업통상자원부 산하의 국가기술표준원이 한국을 대표하는 기관으로 참여하고 있다. ISO에는 데이터 품질 표준을 제정하기 위한 기술협의회가 운영되고 있다.

ISO 국제표준 중에서 잘 알려져 있는 것이 ISO 9000이다. 제품의 품질 표준을 제시하고 있는 ISO 9000은 국제적으로 제품의 신뢰성 확보 방법으로 통용되고 있다. 이에 따라 많은 조직에서 ISO 9000을 제품의 품질 보장을 위한 기준으로 활용하고 있다. 특히 수출 등 국제적으로 활동하고 있는 조직의 경우 ISO 9000 표준 준수가 절대적으로 중요하다. 제품과 마찬가지로 데이터에도 품질에 대한 국제표준이 존재한다. ISO 8000이 바로 데이터 품질 표준을 제시하고 있는 국제표준이다.

ISO 8000의 구성

데이터 품질에 대한 국제표준은 크게 7가지 부문에서 이루어지고 있다. 이중 00 series는 데이터 품질에 대한 전반적인 내용을 다루고 있고, 100, 200, 300 series는 품질 속성, 50, 60, 70 series는 품질 관리에 대해 다루고 있다.

<ISO 8000의 구성도>

ISO 8000에서 처음 논의되었던 내용은 데이터 품질 속성에 대한 표준을 정하는 것이다. 그런데 미국에서는 상거래를 위해 국제적으로 통용되는 상품이나 부품 데이터에 대한 품질 속성에 관심을 보이고 있었던 반면 일본에서는 제조 공정에서 사용되는 데이터의 품질 속성에 대한 표준 제정을 우선적으로 추진하길 원했다.

미국과 일본의 줄다리기는 끝이 없이 진행되다가 유럽 등 다른 나라들의 중재로 두 개의 표준을 별도로 제정하기로 결정되었다. 100 Series는 Master data라는 이름의 상거래 데이터 품질로서 미국이 주도하고, 300 Series는 industrial data라는 이름의 제조 데이터 품질로서 일본이 앞장서서 표준화를 진행하였다. 하지만 앞에서 언급했던 바와 같이 품질 속성은 상황이나 데이터에 따라 상이하게 적용된다. 그러다 보니 여러 개의 품질 속성 중에서 어떤 것을 표준으로 선정해야 하는지에 대한 의견은 끝도 없이 이어졌다. 더구나 미국과 일본의 입장 차이가 첨예하게 대립하면서 양 쪽 모두 합의된 표준 정의에 난항을 겪게 되었다.

ISO 회의가 거듭될수록 피로도가 높아지면서 데이터 품질 표준에 대한 다른 대안이 제시되었다. 유럽 쪽에서는 100 Series와 300 Series에 모두 통용될 수 있는 상위 속성을 먼저 정의하자고 제안하였다. 즉 Meta 품질 속성을 우선 표준화한 뒤에 Master data, Industrial data, transaction data 등 특화된 분야별 품질 속성을 세분화하자는 것이다. 영국, 프랑스, 독일, 스페인, 노르웨이 등에서 상위 품질 속성의 필요성을 강력하게 주장하면서 미국과 일본도 한 발씩 물러서는 상황이 전개되었다.

한국에서는 데이터 품질관리에 대한 표준을 제안하였다. 품질 속성은 상황에 따라 변하기 때문에 표준을 정하기 어려운 반면, 데이터 품질을 확보하기 위한 관리 프로세스는 표준화가 가능하기 때문이다. 실제로 ISO 9000은 제품의 품질 속성이 아니라 품질 확보를 위한 프로세스 표준이다. 또한 국내에서는 행정안전부가 중심이 되어 공공기관이 지켜야 할 데이터 품질 관리 프로세스를 정의하여 매년 이에 대한 평가를 진행하고 있었기 때문에 국제적으로 통용 가능한 데이터 품질 관리 표준을 제시할 수 있었다. 품질 속성보다 관리 프로세스가 중요하다는 주장은 독일, 영국, 스페인 등 유럽 국가들의 공감대를 얻게 되었고, 표준 제정을 서두르는 미국의 전폭적인 지지를 받으면서 데이터 품질 관리에 대한 국제 표준은 급속하게 진행되었다. 다만 초기에는 미국의 강력한 요구에 의해 100 Series에 속해 있다가 나중에 60 Series로 분리되어 국제표준이 제정되었다.

국제표준의 두 영역

ISO 8000은 7개 Series로 구성되어 있지만 크게는 2개 영역으로 구분되어 있다. 데이터 특성 별로 특화된 표준을 정의하는 영역에는 100번 이상의 Series 번호를 부여하고 있고, 모든 데이터에 공통적으로 적용되는 표준은 100번 미만의 Series 번호가 부여된다. 상거래의 중심이 되는 Master data의 품질 표준을 제시하는 100 Series, 거래나 상황 측정 값인 transaction data 혹은 event data의 품질 표준을 제시하는 200 Series, 제조 공정에 사용되는 industrial data 값에 대한 품질 표준을 제시하는 300 Series가 정의되고 있다. 100번 이상의 Series는 주로 값에 대한 품질 속성의 표준에 치중하고 있지만 품질 속성에 대한 합의가 쉽지 않아 논의를 거듭하고 있다. 향후 특화된 데이터 영역이 추가될 경우 400, 500 등의 Series 번호가 부여되면서 표준을 제정할 예정이다.

모든 데이터에 공통적으로 적용되는 100번 미만의 Series의 경우 데이터 품질의 개념과 표준의 영역 등을 명시적으로 제시하고 있는 00 Series가 우선적으로 제정되었다. 그리고 00 Series는 Meta 품질 속성에 대한 표준도 포함하고 있다. 50 Series는 data governance에 대한 표준으로 최근에 논의가 시작되었다. 60 Series는 데이터 품질 관리 표준을 다루고 있고 마지막으로 80 Series는 신뢰할 수 있는 품질 측정 방법을 정의하기 위해 만들어졌다.

품질 속성은 데이터의 다양성과 이에 따른 기준의 복잡성 등으로 표준 설정이 어렵다는 현실에 더하여 국가 간의 이해관계가 상충하며 난항을 겪고 있는 영역이다. 또한 제정된 표준의 적용 범위도 한정적이다. 반면 데이터 품질 관리의 경우 미국, 유럽, 일본 등 다양한 국가에서 필요성을 절감하고 있어 광범위한 지지를 받고 았으며, 제정된 표준이 모든 데이터에 적용되기 때문에 활용성 또한 높은 영역이다.

Newsletter
디지털 시대, 새로운 정보를 받아보세요!
SHOP