지난 3월 14일 중앙일보에는 '빅데이터의 배신'이라는 자극적인 제목의 기사가 실렸다. 마스크를 쓴 서양 여성의 사진과 구글의 독감예보 서비스 그래프를 합친 커다란 사진도 함께. 기사는 미국 휴스턴대 정치학과의 라이언 케네디 교수 연구팀이 3월 13일 세계적인 과학저널 '사이언스(Science)' 온라인판에 기고한 글에서 출발했다.
 
기사에 의하면 케네디 교수 연구팀은 구글 독감트렌드(Google Flu Trends·GFT)가 최근 2년간 실제와 다른 예측치를 내놨다고 꼬집으면서 "'빅데이터 혁명' 대신 빅데이터와 스몰데이터(Small Data·전통적인 연구조사 정보)를 결합한 '올데이터 혁명(All Data Revolution)'을 얘기해야 한다"고 제안했다.

그러나 삽입된 그림을 본 필자의 생각은 달랐다. 구글의  GTF는 신통하리만큼 독감의 '트렌드'를 정확하게 짚어내고 있었다. 독감이 유행하기 시작하면 그래프는 가파르게 상승하고 진정 국면에 접어들면 그래프도 하강 곡선을 그린다. 물론 질병관리본부에서 독감이 지나간 후에야 집계 가능한 실제 독감 환자 숫자와는 차이가 있다.

하지만 '트렌드'가 무엇인가? 정확한 숫자를 예측하는 것이 아니라 말 그대로 '경향' 또는 '추이'를 보는 것 아닌가?

궁금해서 논문을 찾아보았다. Kennedy 박사의 주장은 GFT는 여전히 독감의 추세를 보기에 매우 유용한 도구이나, 실제로 획득된 정확한 의료 데이터를 접목시키면 훨씬 더 정확한 예측이 가능해진다는 것이 핵심 내용이다.

실제로 GFT 결과와 질병관리본부의 과거 독감 환자에 대한 데이터를 통합하였을 실제 독감 환자수에 근접한 결과를 얻을 수 있다는 것을 알 수 있었다. 저자는 자신이 추구하는 데이터 분석 방식에 갇혀 있으면서 다른 쪽을 바라보려 하지 않는 것이 바로 빅데이터의 자만심이라고 하였다.

이는 빅데이터의 문제만이 아니다. 기존의 통계적인 방식으로 데이터를 분석하는 사람들 역시 빅데이터 분석을 신뢰하지 않으면서 자신의 방식을 고수하려 한다고 지적한다. 이 둘이 결합하여 보다 정확하고 의미있는 분석이 가능하다는 사례를 GFT에서 보임으로써 저자는 'all data revolution'을 주장하고 있다. 실제로 서울 심야버스 사례에서도 심야 시간의 통화량이라는 빅데이터와 기존의 버스 운행 노선, 버스 이용량 등의 스몰데이터를 결합하여 최적의 버스 운행 노선을 도출한 바 있다.

논문에서 주장하고 있는 또 하나의 논점은 구글과 같은 상업 목적을 가진 검색 엔진은 기업의 비즈니스 모델에 따라 검색 알고리즘을 조정하기 때문에, 그 검색 결과 역시 이의 영향을 받기 마련이라는 점이다. 이와 같이 검색 회사에서 자신의 목적에 부합하는 결과를 보여주기 위해 수행하는 일련의 조치를 'blue team' 행동이라고 한다.

반면에 이용자들이 자신의 의견을 대중에게 어필하거나 관철하기 위해 하는 집단적 행동은 'red team' 행동이라 한다. 저자는 학자들이 동향을 분석할 때 'blue team'의 영향 뿐 아니라 'red team'의 행동에도 주의를 기울여야 한다고 주장한다.

그러나 무엇보다도 내 눈길을 사로잡은 내용은 구글이 GFT를 작성하기 위해 사용한 검색어를 공개하지 않은 점이 더 문제라고 지적하고 있는 점이다. 비록 구글이 상업적 목적을 가지고 있기는 하지만, 인류의 욕망과 생각과 연결 관계를 꿰뚫을 수 있는 데이터를 보유하고 있는 그룹이라는 점을 감안할 때 '사악해지지 않겠다'는 모토만으로는 충분하지 않다는 것이 저자의 생각이다.

즉, 과정의 투명성을 구글이 보장하여야 한다는 것이다. 독감 예방과 같이 정치적으로 민감하거나 찬반이 갈리지 않는 문제에서 이는 중요하지 않을 수 있다. 하지만 조사의 결과에 이권이 걸려 있거나, 정치적, 사회적으로 민감한 영향을 미칠 수 있는 경우 과정의 투명성이야 말로 빅데이터 분석의 가장 중요한 덕목이 될 것이다.

논문을 읽으면서 빅데이터와 스몰데이터에 대해 다시 한 번 곰곰이 생각해보았다. 빅데이터이든 스몰 데이터이든 중요한 것은 '투명한 데이터'라는 생각이 들었다. 데이터의 획득 과정이 투명하고, 그 데이터에서 필요한 내용을 뽑아내는 과정이 투명하다면, 그 결과에 대한 신뢰도가 높아진다. 빅데이터의 결과에만 주목하지 말고, 활용한 데이터가 어떤 과정을 거쳐 어떻게 만들어졌는지, 그리고 그 데이터에서 어떤 방법을 거쳐 결과가 도출되었는지를 함께 설명할 수 있을 때 빅데이터 분석은 비로소 힘을 얻을 수 있다.

◆한선화 박사는

한선화 KISTI 박사.
한선화 KISTI 박사.
현재는 정보의 홍수시대입니다. IDC의 '디지털유니버스 보고서'에 의하면 올 한해동안 생성되어 유통된 디지털 데이터의 양은 2.8 제타바이트에 달한다고 합니다. 1제타바이트를 책으로 만들어 쌓으면 지구에서 태양까지 1억5000만km를 37번 왕복할 수 있는 양이니 그 규모가 얼마나 큰지 짐작할 수 있을 것입니다.

'한선화의 정보 프리즘'에서는 전세계에서 일어나는 흥미로운 사건, 사실을 데이터를 통해 재조명 해줄 예정입니다. 한 박사는 투명하게 보이는 햇빛이 프리즘을 통과하면 아름다운 무지개로 바뀌듯이 사물과 사건을 보는 또 다른 창이 되길 기대하고 있습니다.

한선화 박사는 한양대학교 화학공학과, 성균관대학교 정보공학과를 졸업하고, 카이스트에서 전산학을 전공했습니다. 1997년부터 한국과학기술정보연구원에서 근무하며 국내외 과학기술 정보와 관련 정보기술 개발을 총괄하는 정보통입니다. 현재 국가과학기술위원회 첨단융합분과 전문위원으로 활동 중이며, 대한여성과학기술인회 부회장, 과실연 대전·충청지역 대표 등 활발한 대외 활동도 겸하고 있습니다.

저작권자 © 헬로디디 무단전재 및 재배포 금지