DB 배포 통해 최소 150억 원 비용 절감 가능
태국어·말레이어·인도네시아어·아랍어·베트남어 대상

윤승 ETRI(한국전자통신연구원) 박사가 데이터를 확인하고 처리하는 모습. <사진=ETRI 제공>
윤승 ETRI(한국전자통신연구원) 박사가 데이터를 확인하고 처리하는 모습. <사진=ETRI 제공>
ETRI(한국전자통신연구원)가 태국어, 말레이시아어, 인도네시아어, 아랍어, 베트남어의 음성 DB를 일반에 배포한다. 해당 언어들을 영문으로 번역한 DB도 공개한다. 이를 해외 업체의 5% 수준의 비용으로 활용할 수 있게 된다. 

음성 DB는 인공지능(AI) 스피커, 내비게이션, 사물인터넷(IoT) 등 음성인식과 번역 소프트웨어 개발에 기초가 되는 자료다. 이러한 소프트웨어에선 고품질의 언어 DB가 많을수록 가치를 높일 수 있다.

이번 공개 배포로 음성인식과 번역 엔진 해외 의존도를 줄이고 해당 언어를 활용한 다양한 서비스 개발에 도움이 될 전망이다.

국내 관련 업체들은 ETRI가 제공하는 자료를 받아 DB 구축 비용을 대폭 절감할 것으로 보인다. 해외 업체로부터 DB를 구입할 경우 언어 당 1~2억 원 정도의 비용이 소용되기 때문. ETRI는 해외 DB 가격 대비 5% 수준에서 제공된다.

이번 DB 구축에는 집단 지성의 힘이 발휘됐다. 크라우드 소싱(Crowd sourcing) 기법을 도입해 일반 사용자의 언어 데이터를 얻었다. ETRI 관계자는 "총 2만 5000명이 발화에 참여했으며 기존 방식보다 최대 8배 많은 데이터를 수집했다"고 밝혔다.

데이터 양만 늘린 것이 아니라 정확도까지 확보했다. 외부 감리 업체 측정 결과 99% 이상의 높은 품질을 인증받았다. 윤승 ETRI 음성지능연구그룹 박사는 "본 DB를 활용해 언어음성 기술을 개발할 경우 외국 신규시장 진출과 국가 경쟁력 강화에 기여할 것으로 예측한다"고 설명했다.

한편, ETRI는 지능형 언어음성 DB를 확보해 일반에 배포했다. 그동안 ▲삼성전자 ▲LG전자 ▲KT ▲네이버 ▲카카오 등 국내 60개 기관에 367건의 DB를 배포하며 총 550억 원에 비용 절감 성과를 얻었다. 이번 DB를 국내 10개 기관에 배포할 경우 최소 150억 원의 수입대체 효과를 얻을 수 있다.

ETRI가 배포 중인 DB 목록은 총 45종이다. ETRI 홈페이지(ETRI 소식-공지사항 검색창-'언어음성' 입력)에서 찾아볼 수 있다. 추가 공개하는 DB도 ETRI 홈페이지에서 확인할 수 있다.

이번 연구는 행정안전부가 한국정보화진흥원을 통해 추진한 '2018 국가중점 데이터 개방 사업'의 일환인 '다국어 5종의 음성과 영어 대역문장 DB 구축 및 개방 사업' 지원을 받았다. 

ETRI(한국전자통신연구원)가 태국어, 말레이시아어, 인도네시아어, 아랍어, 베트남어의 음성 데이터베이스를 일반에 배포한다고 27일 밝혔다. <사진=ETRI 제공>
ETRI(한국전자통신연구원)가 태국어, 말레이시아어, 인도네시아어, 아랍어, 베트남어의 음성 데이터베이스를 일반에 배포한다고 27일 밝혔다. <사진=ETRI 제공>
저작권자 © 헬로디디 무단전재 및 재배포 금지