한국어 잘 이해하는 AI 나온다···'형태소 45억개 학습'

ETRI, AI 서비스 개발 돕는 한국어 최첨단 언어모델 공개
구글이 배포한 한국어 언어모델 대비 평균 4.5% 성능 우수

ETRI 연구진이 코버트(KorBERT) 작동 원리를 설명하고 있는 모습. <사진=ETRI 제공>

한국어를 잘 이해하는 인공지능(AI) 서비스 개발에 가속도가 붙을 전망이다.

ETRI(한국전자통신연구원)는 최첨단 한국어 언어 모델 '코버트'(KorBERT)를 만들어 온라인에 공개했다고 11일 밝혔다. 이번 기술 개발로 한국어를 활용하는 인공지능(AI) 질의응답, AI 지능형 검색, AI 비서 등 AI 서비스 개발이 한층 고도화될 전망이다.

언어 처리를 위한 딥러닝 기술을 개발하기 위해서는 텍스트에 기술된 어절을 숫자로 표현해야 한다. 그동안 언어 활용 서비스 개발에는 주로 구글의 다국어 언어 모델 '버트'(BERT)를 사용했다.

버트는 문장 내 어절을 한 글자씩 나눈 뒤 앞뒤로 자주 만나는 글자를 단어로 인식한다. 구글은 40여만 건의 위키백과 문서 데이터를 사용해 한국어 언어 모델을 개발했다.

ETRI 연구진은 구글 문서 데이터에 지난 10년간 신문 기사와 백과사전 정보 데이터를 더해 45억개의 형태소를 학습시켰다. 이에 따라 구글보다 많은 한국어 데이터를 기반으로 언어 모델을 개발했다.

단순한 데이터 추가는 언어모델 고도화에 한계를 만들어 연구진은 한국어의 의미 최소 단위인 형태소까지 고려했다. 한글이 다른 언어와 달리 어근에 조사가 붙는 교착어라는 점을 최대한 반영했다.

연구진은 구글이 배포한 한국어 모델보다 5가지 기준에서 성능이 평균 4.5%가량 우수하다고 밝혔다. 특히 단락 순위화 기준에서는 7.4% 높은 수치를 기록했다.

연구진은 이번 언어 모델이 ▲전처리 과정에서 형태소를 분석한 언어 모델 ▲한국어에 최적화된 학습 매개변수 ▲방대한 데이터 기반 기반 등이 구글과 다른 차별점이라고 밝혔다. 이 분야에 종사하는 기업, 기관, 대학 개발자들의 폭넓은 활용이 예상된다.

해당 기술은 올해 3월 한컴오피스 지식검색 베타버전에 탑재됐다. 개발된 언어모델은 딥러닝 프레임워크인 '파이토치'(PyTorch)와 '텐서플로우'(Tensorflow) 환경 모두에서 사용 가능하며 공공AI 오픈 API, 데이터 서비스 포털에서 찾아볼 수 있다.

김현기 ETRI 박사는 "한국어에 최적화된 언어모델을 통해 한국어 분석, 지식추론, 질의응답 등 다양한 한국어 딥러닝 기술의 고도화가 가능해질 것으로 기대된다"고 말했다.

김지원 과기부 인공지능정책팀장도 "정부 R&D를 통해 개발되는 양질의 인공지능 API와 데이터를 공개해 개방형 혁신을 촉진할 수 있도록 하겠다"고 언급했다.

연구진은 하반기에 ETRI 언어 모델을 활용한 '법령 분야 질의응답 API'를 추가 공개하고 '유사 특허 지능형 분석 기술'도 출시를 목표하고 있다. 현재 구글과 연구진이 언어 모델 개발에 활용한 버트 방식은 약 512개 이상의 단어가 들어간 문서를 한 번에 처리하지 못하는데, 향후 연구진은 한 번에 많은 언어 데이터를 처리하고 검증하는 방법을 고도화한 모델을 개발할 계획이다.

한편 이번 연구는 과기부와 정보통신기획평가원(IITP)의 혁신성장동력 프로젝트로 추진 중인 '엑소브레인' 사업이다. 엑소브레인은 정부가 세계 최고 AI 기술 개발을 목표로 소프트웨어 분야의 R&D 과제에 붙인 이름이다. ETRI는 2017년부터 언어지능 기술 오픈 API와 기계학습 데이터를 공개한 바 있다. 지금까지 1300만 건 이상이 활용됐다.

김인한 기자 inhan.kim@HelloDD.com

김인한 기자의 다른기사 보기

상단영역

본문영역