데이터 품질의 국제표준 ISO 8000 – 표준화 활동(2편)

투이컨설팅 NIB 이진우

ISO 8000 기술협의회란?

ISO 8000의 표준화를 위해 매년 정기적으로 기술협의회가 열리며 참여국이 돌아가면서 회의를 주최한다. 표준화를 위해서는 먼저 표준 대상에 대한 제안이 이루어진다. 그리고는 Task Force Team를 구성하여 표준에 대한 초안을 만들게 된다. TF팀에는 제안국가를 포함하여 3~5개의 국가가 참여하는 것이 일반적이다. 그러나 초안의 내용에 대해서 어느 국가든 문제를 제기할 수 있고 이에 대한 해결이 되기 전까지는 표준으로 상정할 수가 없다. 품질 속성의 제정에서 시간이 많이 소요된 이유도 제기된 문제에 대하여 충분히 설명하고 해결하는 과정이 필요하기 때문이다. 검토가 완료되면 표준 제정을 위해 참여국의 투표가 이루어지고 2/3의 찬성을 얻어야 국제표준으로 인정될 수 있다.

< ISO 8000 표준화 현황 >

ISO 8000은 지금까지 21개의 국제표준을 제정하였고 9개의 추가적인 표준에 대하여 논의가 진행되고 있다. 초록색으로 표시된 부분이 이미 제정된 표준이고, 주황색이 논의 중인 표준이다.

데이터 품질 속성에 대한 국제표준

제일 먼저 표준화된 품질 속성은 100 Series를 통해서이다. 국제적 상거래에 이용될 표준화된 제품, 부품 등의 식별번호에 초점을 맞춘 100 Series는 근거확실성, 완전성, 정확성 등을 중요한 품질 속성으로 정의하였다. 무엇보다도 근거가 확실한 데이터만이 신뢰할 수 있다는 근거확실성(provenance)를 가장 강조하였고, 충실하게 내용을 전달할 수 있도록 정해진 형식에 맞춘 완전성(completeness)을 갖추어야 한다고 정의하고 있다. 그리고 명확한 사실을 전달하기 위한 정확성(accuracy)을 품질 속성에 포함시켰다.

거래 및 측정 데이터를 다루는 200 Series에서는 정확성과 완전성도 중요하지만 적시성(timeliness), 유용성(usability) 등 사용 목적에 적합해야 함을 강조하고 있다. 또한 데이터 간의 모순이 발생하지 않는 일관성(consistency) 또한 포함하고 있다. 단편적 데이터가 아니라 현장에서 실제 활용이 이루어질 경우에 점검해야 할 데이터의 품질 속성에 초점을 맞추고 있는 것이다.

제조 공정에서 필요한 데이터 품질 속성을 정의하고 있는 300 Series는 다분히 특화된 모습을 보여준다. 미세한 공정을 위해 충분히 세밀한 데이터를 제공하는지를 나타내는 정밀성(precision), 누구나 이해할 수 있는 측정 단위를 사용해야 한다는 통용성(currency), 다른 공정에서도 적용 가능한지를 나타내는 이식성(portability), 손상이 발생해도 다시 재생할 수 있는 복구성(recoverability) 등을 표준 품질 속성으로 정의하고 있다.

각 series에서 주장하는 품질 속성이 상이하고, 속성 간의 경계나 의미도 불명확하여 국가 간에 합의가 이루어지기까지는 많은 시간이 소요되었다. 회의가 거듭되면서 후보로 논의되었던 품질 속성은 수십 개에 이르며 이 중 대표적인 것은 다음과 같다.

accuracy, provenance, consistency, currency, completeness, precision, security, availability, recoverability, understandability, manageability, efficiency, changeability, portability, productivity, safety, credibility, accessibility, regulatory compliance ……

품질 속성이 다양할 뿐만 아니라 보는 관점에 따라 정의나 내용이 달라질 수 있고, 또한 표준에 포함시킬 범위에 대해서도 상황이나 목적에 따라 다른 의견이 개진될 수 밖에 없는 것이 현실이다. 이런 과정 속에서 모든 품질 속성을 대표할 수 있는 상위의 품질 속성 즉, Meta 품질 속성을 도출하자는 의견이 나오게 되었다. 결국 00 Series에서 상위 품질 표준을 3개로 정의하였다. 정해진 형식을 맞추어야 한다는 정합성(synthetic), 의미 있는 데이터이어야 한다는 의미성(semantic), 그리고 실제 활용이 이루어질 수 있어야 한다는 실용성(pragmatic)이 바로 3개의 상위 품질 속성이다. 모든 품질 속성은 3개의 상위 속성의 범위 내에서 세부적인 표준으로 정의되어 적용되고 있다.

데이터 품질 관리에 대한 국제표준

품질 속성은 분야나 상황에 따라 차별적인 접근이 필요한 반면 이러한 품질 속성을 정의하고 점검하는 관리 프로세스는 모든 분야에서 일관되게 적용된다. 그래서 모든 Series의 표준보다 선행적으로 필요한 것이 해당 표준의 품질 속성을 적용하여 품질을 관리할 수 있는 검증된 프로세스를 정립하는 것이다. 60 Series를 이러한 요구에 맞추어진 표준 관리 프로세스를 제시하고 있다.

품질 관리의 출발점은 품질 지표를 설정하는 것이다. 품질이 좋은지 나쁜지를 구별할 수 있는 기준이 있어야 이를 기반으로 부족한 부분을 보완하는 품질 관리를 수행할 수 있기 때문이다. 다시 말해 품질의 상태를 확인할 수 있는 객관적이고 명확한 지표가 필요하다. 그리고 이러한 품질 지표는 데이터와 관련된 모든 사람들이 공유하고 있어야 하며, 주기적으로 품질 측정이 이루어져야 지표로서의 기능을 발휘할 수 있다.

앞에서 다루어진 품질 속성은 이러한 품질 지표를 설정하는 기초가 된다. 하지만 어떤 품질 속성을 이용하여 지표를 만들지는 데이터의 성격이나 시점에 따라 달라진다. 더 정확하게는 품질 지표는 상황에 따라 유동적으로 변화되어야 한다. 품질 속성이 추가되거나 변경될 수 있고, 요구하는 품질 수준도 달라질 수 있다. 하지만 모두가 공감할 수 있는 품질 지표를 설정하고 관리해야 하며, 품질 확인을 위한 점검이 지속적으로 이루어져야 한다는 관리 프로세스는 변함이 없다.

품질 지표를 설정하고 이를 통한 품질 측정이 이루어졌다면 그 다음에는 품질 기준에 미달하는 데이터 즉, 오류 데이터에 대한 수정이 이루어져야 한다. 그런데 오류 수정은 생각보다 더 많은 시간과 노력이 필요하다. 우선은 오류가 발생한 원인을 파악해야 하는 데 프로그램이 잘못된 경우, 입력이 잘못된 경우, 전달 과정에서의 누락이나 변형, 부적절한 갱신이나 수정 등 너무나 다양한 상황이 존재한다. 그리고 여러 사람이 관여되어 있는 경우 책임 소재를 파악하기에도 어려움이 있다. 데이터의 생성부터 마지막 활용시점까지의 추적성이 확보되지 않는다면 원인 파악이 이루어지지 않는다. 그래서 데이터 품질관리에서 중요한 요소를 차지하는 것이 데이터 추적성 확보이다.

데이터 품질 확보를 위해서는 해당 데이터의 수정만으로 충분하지 않다. 적어도 2가지를 더 고려해야 한다. 첫번째는 데이터가 여러 군데 복제되어 사용된다는 사실이다. 일반적인 경우 데이터는 평균 10번 정도의 복제가 이루어진다. 그러므로 복제되어 있는 잘못된 데이터를 모두 찾아서 수정해 주어야한다. 이를 위해서 필요한 것이 데이터 흐름의 파악이다. 두번째는 동일한 원인에 의해 잘못되어 있는 데이터를 모두 찾아 수정해주어야 한다. 단순한 실수라면 오류의 범위가 크지 않지만, 프로그램 등이 잘못되어 있다면 끊임없이 잘못된 데이터가 생성되고 있으며 여러 곳으로 복제되어 활용되고 있기 때문에 대규모 수정 작업이 필요하다.

데이터의 오류와 원인을 파악 했어도 수정에 대한 권한이 없다면 함부로 손댈 수가 없다. 또한 수정에 따라 또 다른 오류가 발생할 수도 있기 때문에 수정에 대한 영향도 분석도 이루어져야 한다. 결국 데이터 오류 수정에 많은 시간과 노력이 소요될 뿐만 아니라, 데이터 추적성, 흐름, 영향도, 권한 등과 관련된 관리 체계를 갖추고 있어야 한다. 표준 관리 프로세스에는 이러한 관리 기능도 포함되어 있다.

단편적인 데이터 수정뿐 아니라 근본적인 원인 해결을 위한 장기적 개선 활동도 필요하다. 데이터를 중복적으로 정의하거나 데이터 형식에 대한 표준이 정의되지 않는 등 구조적인 문제로 발생하는 오류도 많은 부분을 차지하고 있기 때문이다. 그런데 이러한 구조적 문제점 중에는 당장 해결할 수 없고, 시스템에 대한 전면적인 수정이나 재구축 시점에만 가능한 부분도 존재한다. 새로운 시스템 구축 과정에서 선행적으로 고려해야 할 사항이 포함되어 있기 때문이다. 데이터 품질관리 프로세스가 효율적으로 작동하기 위해서는 데이터 전반에 대한 관리 프로세스 또한 정립되어 있어야 한다.

결국 데이터 품질 관리에는 품질 지표의 설정, 측정, 수정이 기본 축을 이루지만 데이터오류의 원인에 대한 파악과 이를 개선하기 위한 관리 프로세스 그리고 데이터 아키텍쳐 관리 등 선행적으로 고려해야 하는 기능 등이 필요하다.

< 60 Series 구성도 >

데이터 품질관리 국제표준인 60 Series는 크게 3부분으로 구성되는데 Implemention 부분에서 품질지표를 설정하고 점검하고 개선하는 프로세스를 정의하고 있다. 반면 Data-Related Support 부분은 데이터 아키텍처나 흐름 등 데이터 전반에 대한 관리 영역으로 오류 수정 및 근본 원인 해결을 지원하는 기능을 포함하고 있다. 그리고 Resource Provision 부분에서는 데이터 품질 활동을 위한 인력이나 조직에 대한 관리 프로세스를 다루고 있다.

진행 중인 데이터 품질 국제표준

데이터에 대한 관심의 증가하고 데이터 활용도 활발해지면서 데이터 품질에 관한 국제표준도 확대되고 있다. 현재 활발하게 표준화 논의가 진행되고 있는 대상 중 가장 관심을 끄는 분야는 자동화와 AI 데이터에 대한 품질 표준이다. 그동안은 주로 사람에 의해 생성되고 활용되는 데이터가 중심을 이루었다면 이제는 자동화 기기 등을 위한 데이터도 중요하게 되었다. 자동화 기기의 경우 주어진 데이터에 대해 의심없이 그대로 사용하기 때문에 데이터에 대한 품질이 더욱 중요하다. 특히 LLM등 생성형 AI를 위한 데이터 품질 표준이 논의의 중심을 이루고 있다. 또한 Biockchain 등 신기술 적용에서 필요한 데이터 품질 요소에 대해서도 논의가 시작되었다.

데이터 품질 확보를 위해서는 품질관리 프로세스뿐 아니라 데이터 전반에 대한 관리체계가 확립되어 있어야 한다. 그러다 보니 데이터 거버넌스가 품질관리에 중요한 요소로 부각되고 있다. ISO 8000에서도 데이터 거버넌스에 대한 표준화 작업 또한 진행되고 있다.

국제표준의 제정에서 과거에는 미국이 선도적인 역할을 수행하였지만 일본 등의 견제가 심해지고 유럽연합을 통해 유럽국가 등이 힘을 합치면서 표준화 과정이 쉽지만은 않은 상황에 직면하고 있다. 이제는 자국의 이익만을 내세우는 경우 국제표준으로 선정되기 어려우며, 여러 국가의 이해관계를 모두 수용할 수 있어야만 표준화가 이루어진다. 최근에는 중국의 가세로 기술협의회에서의 논의가 한층 복잡한 양상으로 전개되고 있다. 데이터 품질에 대한 표준을 설정하는 기술협의회에서 각국은 데이터 분야의 주도권을 잡기 위한 소리없는 전쟁을 벌이고 있다. 한국은 국가 간 이해관계가 첨예하게 대립하는 ISO 8000의 표준화 현장에서, 실질적인 적용 겸험을 근거로 내세우면서 많은 국가의 지지를 받는 실용적인 표준을 제시함으로써 중추적인 역할을 수행하고 있다.