'똑똑'한 빅데이터?···"데이터 신뢰성 확보부터"

측정분야 과학자와 의료 빅데이터 전문가 소통
"신뢰성 갖춘 의료 빅데이터, AI 제대로 공부시킨다"

"딥러닝 알고리즘을 통해 훈련된 AI와 빅데이터가 접목된 의료기술이 주목받고 있습니다. 하지만 빅데이터의 신뢰성을 평가할 기준은 표준화되어 있지 않습니다. 신뢰성이 낮은 빅데이터가 AI와 결합하게 되면 바보 AI가 되고 맙니다. 신뢰성이 확보된 빅데이터 (참조데이터)는 AI를 똑똑하게 교육시키고 참조표준은 AI의 정확도와 유효성을 평가할 수 있는 기준을 제공합니다."

"숫자로 표현되는 데이터 간 상호신뢰성을 확보하기 위해선 데이터를 분석하는 잣대뿐 아니라 그 기준점도 같아야 합니다. 이처럼 소급성을 갖는 빅데이터가 생산될 수 있도록 바탕을 구축하는 것이 표준연의 역할 아닐까요?"

4차 산업혁명 도래와 함께 우리나라 의료계에도 빅데이터와 AI(인공지능) 기술 바람이 불고 있다. 분야를 막론하고 4차 산업혁명의 핵심 기술로 꼽히는 빅데이터. 특히 의료계에서 활용되는 빅데이터는 생명과 직결돼있어 그 신뢰성 확보가 매우 중요하다.

의료 빅데이터 신뢰성 확보 방안을 논의하기 위해 측정분야 과학자와 의료빅데이터 전문가가 한국표준과학연구원(원장 박상열)에 모였다. 논의의 장에는 김창근 표준연 국가참조표준센터장, 정지선 바이오임상표준센터 박사, 방건웅 한국뉴욕주립대학교 교수가 같이 자리했다.

의료계에서 활용되는 빅데이터는 생명과 직결돼있어 그 신뢰성 확보가 중요하다.<이미지=남선 디자이너>

◆ 소 잃기 '전' 외양간 고치는 의료 빅데이터

참석자들은 신뢰성이 확보된 의료 빅데이터를 '소 잃기 전 외양간을 고치는 기술'에 비유했다.

생산된 데이터 중에서도 정확도와 신뢰도가 과학적으로 분석 및 평가되고 국가가 공인한 결과을 참조표준이라 하는데, 이는 신뢰성이 평가된 빅데이터로부터 활용할 수 있는 지식을 뽑아낸것이며 어떤 것을 판단할 수 있는 기준이 된다.

신뢰성을 갖춘 의료분야 참조표준을 활용하면 질병을 조기에 진단해 오진을 방지할 수 있다. 또 질병 발생을 예측할 수 있는 모델 구축을 통해 질병을 예방할 수 있다는 게 참석자들의 공통된 의견이었다.

김창근 센터장은 "참조표준을 활용하면 보건의료 분야의 사회적 비용과 복지비용을 줄일 수 있는 경제적인 효과를 기대할 수 있다. 질병을 예방하는 것, 즉 소 잃기 전 외양간을 고치는 격이다"라고 말했다.

또 "4차 산업혁명과 함께 정밀의료를 위한 인공지능을 딥러닝 시킬 수 있는 빅데이터의 중요성이 확대되고 있다"고 운을 떼며, "참조표준은 딥러닝 알고리즘을 통해 학습한 AI가 얼마나 정확한지 그 유효성을 평가할 수 있는 기준을 제공해 줄 수 있다"며 그 중요성을 강조했다. 쉽게 말하여 AI가 제대로 공부했는지 여부를 확인하기 위한 시험문제로 쓰일 수 있다는 것이다.

최근에는 단순히 수치 데이터를 생산, 수집하는데서 더 나아가 데이터 가공을 통해 정보가 농축된 지표를 생산함으로써 빅데이터의 부가가치를 더욱 높이는 방향으로 나아가고 있다.

방 교수는 "데이터라 하면 물리·공학 데이터와 같은 기본 수치 데이터만 떠올리기 쉽다. 하지만 보건의료 분야의 한국인 고혈압 판정기준, 한국인 혈당 기준, 치아·기도·뼈의 길이, 장기의 크기 및 위치 등과 같은 수많은 2차 가공 데이터들도 포함된다"고 설명했다.

그는 "기존에는 물리량을 나타내는 기초 데이터가 그 자체로 참조표준이 될 수 있었지만, 이제는 살아있는 생명체에 대한 다양한 데이터를 가공하여 정보가 농축된 지표를 개발해야 한다"며, "개별데이터 생산에서 그치는 것이 아니라, 데이터를 가공하여 빅데이터를 고부가가치화 할 수 있는 지표 생성이 중요하다"고 말했다.

정지선 박사는 "똑같은 혈당 수치라도 사람의 몸 상태에 따라, 병이 발생할 수도 아닐 수도 있다"며 "믿을 수 있는 빅데이터를 구축해 의미있는 지표인 참조표준을 만들어내야 한다"고 답했다. 그러려면 일차적으로 의료 빅데이터의 신뢰성을 평가하기 위한 기준 마련이 필요하다는 게 정 박사의 말이다.

◆ 병원에 '꽁꽁' 갇힌 빅데이터부터 공유하자

참조데이터는 신뢰성이 확보된 쓸 수 있는 개별 데이터를, 참조표준은 대량의 참조데이터에서 뽑아낸 지식을 말한다.<자료=표준연 국가참조표준센터 제공>

김창근 센터장은 데이터 양질화와 신뢰성 확보를 위해 '데이터 공유와 개방'을 강조했다. 김 센터장은 "의료 빅데이터 구축에 필요한 데이터가 모두 각 병원 단위에서 관리되고 있다. 소중한 데이터들이 '병원 지하실에 꽁꽁 갇혀있는 셈"이라고 현실을 지적했다.

김 센터장은 "최근 의료계에서도 서양인의 기준이 아닌 한국인에 맞는 기준 제시를 위한 신뢰성있는 데이터를 모으는 데 관심을 갖게 되었다. 5년간 홀로 한국인 뇌MR영상 데이터를 생산하던 동국대병원이 국가참조표준데이터센터로 지정 받으면서 동국대병원을 중심으로 11개 대학병원의 협업체계를 구축해 만4000여명의 양질의 빅데이터를 생산했다"며 "이는 개별 연구자가 평생 노력해도 모을 수 없는 빅데이터로 협업의 중요성을 보여주는 훌륭한 사례"라고 말했다.

정지선 박사는 OECD가 우리나라 의료 빅데이터를 2위 수준으로 평가한 결과를 예로 들었다. 정 박사는 "우리나라같이 건강검진을 의무화해 의료 데이터를 관리하는 나라가 거의 없다. 이는 의료 빅데이터 분야에서 양질의 토양을 갖추고 있는 것과 같다"고 평했다.

OECD는 우리나라 건강보험(의료) 빅데이터를 인구정보의 포괄성, 임상 용어에 대한 표준화된 코드 사용, 의료 질과 성과와 연계한 정기적 보고에 활용 등 기준에 따라 OECD 22개국 중 아일랜드에 이어 2위 수준으로 평가했다.

빅데이터의 양이 '양질의 토양'이라면, 참조표준은 열매를 맺을 수 있는 싹을 틔우는 것으로 볼 수 있다. 참석자들은 현재 확보된 빅데이터의 신뢰성에 대해서는 의문을 제기했다.

정 박사는 "현재 의료 빅데이터는 건강검진자료를 바탕으로 구축돼있다. 건강검진을 받고 있는 국민 대다수가 '설마 건강검진 결과가 틀릴 수도 있을까? 신뢰성이 없는 빅데이터가 있을까?' 갸우뚱할 수 있겠지만, 사실 기 확보된 데이터 중에서는 신뢰성이 보장되지 않은 사례가 있을 수도 있다"고 짚었다.

그는 "신뢰성을 갖추지 못한 데이터를 기반으로 빅데이터를 구축하는건 국가재정을 낭비하는 것과 마찬가지라고 꼬집으며, "과학계와 의료계에 엉터리 데이터를 규제할 수 있는 법규가 있으나 현장에서 실행이 제대로 되고 있는지는 검토할 필요가 있다"고 지적했다.

방건웅 교수도 숫자로 표현되는 데이터에 대한 무조건적인 신뢰를 '숫자의 마법'이라 경계하며, 측정표준에 대한 소급성을 강조했다.

방 교수는 "데이터가 숫자로 표현되는 만큼, 숫자의 마법에 빠지기 쉽다. 숫자로 표현되는 각 데이터 간 상호 신뢰성을 확보하기 위해서는 잣대가 같아야 할 뿐만 아니라 잣대의 기준점도 같아야 한다. 이를 소급성이라 한다"며, "표준측정절차 개발, 교정방법 개발, 숙련도 시험 등을 통해 국가적으로 일어나는 모든 측정에 대해 측정결과의 소급성 확보 및 측정 능력을 제고해 주는 것이 곧 KRISS의 임무"라 강조했다.

정 박사는 "문미옥 과학기술보좌관이 참조표준데이터 확립으로 4차 산업혁명을 가속화하겠다는 취지로 '국가표준기본법 일부개정법률안'을 대표 발의했다. 사회적으로 신뢰성있는 데이터에 관심을 갖는 계기가 될 것"이라며 "법률이 통과된다면, 정확도와 신뢰성을 갖춘 의료 빅데이터를 구축하는 데 필요한 기반을 어느 정도 갖추게 될 것"이라고 기대했다.

김창근 센터장은 "산업부 국가기술표준원과 미래부 한국표준과학연구원이 지난 12년간 노하우를 축적하며 운영 중인 국가참조표준체계를 범부처형으로 확장한다면, 법률 개정에 대한 취지를 120% 달성할 수 있을 것"이라고 확신했다.

◆ 4차 산업혁명 시대 빅데이터 기반 '왓슨', 의료소외계층 지원해야

참석자들은 숫자로 표현되는 데이터에 대한 무조건적인 신뢰를 '숫자의 마법'이라 경계하며, 측정표준에 대한 소급성을 강조했다.<사진=조은정 기자>

김창근 센터장은 "현재 혹은 가까운 미래에는 질병이 발생한 후 환자에게 '병원에 갈 것'을 권유하는 초기진단 수준의 AI 의료기기가 활용될 것이나, 먼 미래에는 질병 발생을 예측할 수 있는 모델 구축을 통해 질병을 예방할 수 있게 될 것"이며 "질병 예방이야 말로 의료 빅데이터 신뢰성 확보의 궁극적 목표"라고 강조했다.

왓슨의 등장에 따른 일자리 감소 우려에 대해 방건웅 교수는 "단지 의사의 보조적 역할에 머물 뿐, 사람의 역할을 대체할 수는 없을 것"이라고 단언했다. 방 교수는 "지금처럼 자리에 앉아 환자를 대면하면서 직접 진단하는 것에서 벗어나 측정 과학자와 통계 전문가가 생산한 참조표준을 해석하고 검토하는 역할도 하게 될 것"이라며 의료계의 역할 변신을 예측하기도 했다.

정지선 박사는 AI 의료 서비스가 의료소외계층을 지원해줄 것으로 기대했다. 정 박사는 "우리나라에도 '왓슨(Watson)'이 도입됐지만, 현재 대도시 환자들만 그 혜택을 누리고 있다"고 지적하며, "상대적으로 첨단 의료혜택을 누리기 힘든 지역과 계층중심으로 보급하여 이들이 대도시와 같은 의료혜택을 누릴 수 있게 해야 한다"고 당부했다.

김 센터장 역시 "왓슨은 엄청난 양의 의료 빅데이터를 바탕으로 단 시간 내에 환자를 진단 할 수 있는데, 우리나라 의료 서비스는 대도시에 편중되어 있다. 의사들이 부족한 지역에서 왓슨을 활용하면 고도의 의료 서비스가 가능할 것이다"며 소외지역 우선 보급을 강조했다.

김 센터장은 IBM 왓슨을 예로 들며, "의료산업계가 하드웨어 기반에서 소프트웨어 중심으로 변화되고 있다"고 분석했다. 그는 "우리나라는 이미 전 세계의 의료기기 소프트웨어 산업계를 주도할 수 있는 두 가지 장점을 확보 하고 있다"며 "첫째는 IT&Software 기반 기술, 둘째는 신뢰성이 확보된 빅데이터(참조표준)이다. 이 두 장점을 적극 활용하여 한국형 왓슨 개발에 적극 도전이 필요하다"고 역설했다.

진행=이원희, 기사=조은정 기자 eunjj@hellodd.com

진행=이원희, 기사=조은정 기자의 다른기사 보기

상단영역

본문영역