정확한 분석을 위한 시맨틱 연구

#사례1 전국적인 판매망을 가지고 있는 P 제과점은 날씨와 빵의 판매량에 대한 정보를 분석하여 어느 요일, 어떤 날씨에 어떤 빵의 매출이 높은지에 대한 통계 자료를 확보했다. 가맹점 주인들은 다음 날 필요한 빵의 원료를 본사에 주문할 때 본사에서 제공하는 이러한 통계 자료와 기상청의 날씨 정보를 기반으로 적당량의 원재료를 주문한다. 이에 따라 재고율과 폐기 처분하는 빵의 분량이 크게 줄어든 것은 물론 매출과 수익도 크게 증가했다.

#사례2 경기도가 한국은행에 의뢰한 결과, 경기도 주민들의 신용카드 사용금액 중 30% 이상이 서울에서 발생한다고 한다. 이 30%가 백화점, 연극, 영화, 대형병원에서 사용됐다는 데이터가 나왔다. 경기도는 이러한 분석 정보를 기반으로 향후 경기도의 문화지도를 바꾸는 정책을 수립하고 있다.

데이터의 활용은 이처럼 개별 기업의 마케팅에서 정부의 정책 방향 설정에 이르기까지 지대한 영향을 미치고 있다.

그러나 이러한 데이터는 이른바 '정형' 데이터이다. 각 숫자나 문자가 나타내는 의미가 무엇을 의미하는지 알 수 있다는 장점이 있다. 신용 카드의 사용량, 슈퍼마켓이나 온라인 장터의 물건 판매량, 병원의 투약 기록과 환자의 생채 리듬, 자동차나 스마트 폰의 위치 정보. 이들은 모두 데이터의 유형은 다르지만 그 의미는 비교적 정확히 구분된다. 그러나 의미를 모르면 전혀 엉뚱한 분석을 할 수 밖에 없는 것이 있다. 바로 인간의 '언어'이다.

Harvard대 정부학과 (Dept. of Government)  교수이자 정량적 사회과학 연구소 (Institute of Quantitive Social Science) 소장인 Gary King 박사가 2012년 11월 Hravard Kennedy School의 Joan Shorenstein center와의 인터뷰에서 밝힌 실화를 예로 들어보자.

#사례3 다음 달 실업률을 예측하기 위해 사람들이 SNS에 취업과 관련된 단어를 얼마나 사용하는지를 조사하기로 하였다. 관련된 단어는 '직업(jobs)', '실직(unemployment)', '구인광고(classified)' 등이었다. 어느 달에 갑자기 관련 단어가 급증해서 당연히 높은 실업률 또는 대량 해고 등의 상황을 예측했다. 그러나 알고보니 'Steve Jobs'가 사망한 소식이 전파되고 있었다. 

어찌 보면 우스꽝스러운 이 이야기는 사실 매우 중요한 의미를 담고 있다. 데이터의 분석이 잘 못 되었을 때 어떠한 일이 벌어질 수 있는지를 실제로 보여주었기 때문이다. 그래서 King 교수를 포함한 많은 전문가들이 "데이터의 양이 중요한 것이 아니라 의미를 정확히 파악하는 것이 중요하다"고 말한다.

트위터나 페이스북같은 소셜네트워크 서비스나 신문, 웹사이트 등은 매우 중요한 정보원이다. 가장 최신의 정보를 실시간으로 접할 수 있기 때문이다. 그러나 이처럼 가공되지 않은 이른바 'full text(문장)' 정보들은 의미의 모호성 때문에 분석이 매우 어렵다는 특징이 있다.

이처럼 문장에서 의미를 찾아내고 의미 간의 관계를 연결하여 새로운 지식을 찾게끔 도와주는 연구가 '시맨틱 기술' 연구이다. 영어 사전을 찾으면 시맨틱 (Semantic)은  '의미론적인'이라고 풀이되어 있다.

시맨틱 기술이란 컴퓨터가 문법(Syntax)만을 이해하는 것이 아니라 그 안에 담겨있는 의미까지 이해하는 기술이다. 'jobs'가 취업을 의미하는지, 아니면 사람을 지칭하는지 주변 문장을 분석하여 알아내는 것이다. 한발 더 나아가 '직업'을 구하는지 아니면 새로운 일자리가 생겼는지 'Steve Jobs'가 사망했는지 또는 새로운 혁신적인 아이디어를 내 놓았는지도 알아낸다.

이를 위해 우리는 문장의 얼개를 파악하여 문장에서 뽑아내고자 하는 정보의 구조도를 그려내고 (온톨로지 스키마), 이 지도를 채우기 위한 관련 용어들을 정비하며 (온톨로지 구축), 이를 기반으로 문장을 이해하여 문장에서 내포하고 있는 의미를 추출해낸다 (RDF 지식베이스 구축). 이러한 절차를 거쳐야 단순한 키워드만을 분석할 때 발생하는 수많은 오류를 방지하고, 제대로 의미있는 결과를 도출할 수 있다(추론 및 분석).

과학기술 분야에서도 기술의 미래를 예측하거나 새롭게 부상하는 기술 분야를 도출해 낼 때 기존의 방식처럼 논문, 특허 자료만으로 분석을 할 경우 가장 최신의 정보를 활용할 수 없다.

신문이나 기술 보고서, 기술 전문 온라인 사이트 등을 함께 보아야 가장 최신의 트렌드를 가장 정확하게 짚어볼 수 있다. 이럴 때 필요한 것이 바로 사람이 쓴 글을 이해하는 시맨틱 기술이다. SNS를 분석할 때에도 같은 단어를 긍정적으로 사용하였는지, 부정적으로 사용하였는지를 판단하지 않고서는 함부로 결론을 도출해낼 수가 없다. 이 때에도 시맨틱 기술이 적용되어야 한다.

축적된 데이터와 센서를 통해 얻는 빅데이터가 '사람의 행동'을 의미한다면, 사람이 쓴 글로 이루어진 빅데이터는 ‘사람의 마음’이라고 볼 수 있다. 이 두 가지 유형의 빅데이터를 제대로 활용할 수 있어야 빅데이터에 대한 완벽한 분석이 가능하다. 시맨틱 기술이 필요한 이유다.

현재는 정보의 홍수시대입니다. IDC의 '디지털유니버스 보고서'에 의하면 올 한해동안 생성되어 유통된 디지털 데이터의 양은 2.8 제타바이트에 달한다고 합니다. 1제타바이트를 책으로 만들어 쌓으면 지구에서 태양까지 1억5000만km를 37번 왕복할 수 있는 양이니 그 규모가 얼마나 큰지 짐작할 수 있을 것입니다.

'한선화의 정보 프리즘'에서는 전세계에서 일어나는 흥미로운 사건, 사실을 데이터를 통해 재조명 해줄 예정입니다. 한 박사는 투명하게 보이는 햇빛이 프리즘을 통과하면 아름다운 무지개로 바뀌듯이 사물과 사건을 보는 또 다른 창이 되길 기대하고 있습니다.

한선화 박사는 한양대학교 화학공학과, 성균관대학교 정보공학과를 졸업하고, 카이스트에서 전산학을 전공했습니다. 1997년부터 한국과학기술정보연구원에서 근무하며 국내외 과학기술 정보와 관련 정보기술 개발을 총괄하는 정보통입니다. 현재 국가과학기술위원회 첨단융합분과 전문위원으로 활동 중이며, 대한여성과학기술인회 부회장, 과실연 대전·충청지역 대표 등 활발한 대외 활동도 겸하고 있습니다.
 

저작권자 © 헬로디디 무단전재 및 재배포 금지