▲ ETRI는 독일·러시아·아랍·베트남 4개국어 언어음성DB를 국내최초로 구축해 배포한다. 사진은 ETRI 이영직 박사가 이번에 배포하는 언어음성DB 중 아랍어 문장을 검토하는 모습. 제공= ETRI
|
독일·러시아·아랍·베트남어 대화체 DB구축
ETRI, 음성인식 기기·자동통번역 등 다국어 개발 활용
스마트 인터페이스 분야 외국기술 잠식 차단
“외국어 울렁증 이젠 걱정마세요.”
최근 스마트폰 등 모바일 기기의 확산으로 외국어 음성DB(데이터베이스)도 큰 시선을 끌고 있는 가운데 ETRI(한국전자통신연구원) 연구진이 독일·러시아·아랍·베트남 등 4개국의 대화체(구어체) 언어음성DB를 국내최초로 구축했다.
30일 ETRI에 따르면 4개국 음성DB는 모두 36만 문장이며 이중 독일어-한국어, 러시아어-한국어, 아랍어-한국어, 베트남어-한국어 대역문장이 20만건을 차지하고 있다.
이러한 언어음성 DB는 음성인식 분야와 언어번역 분야의 소프트웨어(SW) 개발이나 음성언어처리 연구의 기초데이터로 사용되고 있으며, 관련 기업들은 그동안 SW를 태블릿 PC나 내비게이션, 스마트폰, 전자사전, 지능형로봇 분야에 널리 활용해 왔다.
이에 ETRI는 이번에 구축한 4개국 음성 DB 20만 문장을 산업체와 학계 등에 배포키로 했다.
배포하는 각국의 언어음성 DB는 음성리모콘제조사, 외국어 교육 업체, 자동통번역 서비스업체, 자동차 및 내비게이션 제조사, 포탈업체는 물론 여행이나 관광, 어학분야에 널리 활용될 것으로 기대된다.
뿐만 아니라 전세계적으로 인공지능, 사물인터넷(IoT), 지능형로봇, 무인자동차, 스마트TV 등 스마트 인터페이스 분야의 경쟁이 치열한 가운데 이번 ETRI의 다국어 음성 DB배포는 관련 분야의 외국기술 잠식을 차단하는 데 큰 역할을 할 것으로 전망된다.
그동안 음성DB를 이용한 상용 제품들은 국가DB사업에서 구축한 자료를 이용해 국내 기술로 자체개발한 부분도 있으나, 국내 DB가 없으면 외국에서 개발한 음성인식 및 번역엔진을 도입해 탑재하는 형편이기 때문이다.
더욱이 최근 자동통역서비스 등 스마트 인터페이스 산업이 확산되고 있음을 볼 때 이 분야의 기술 자립 차원에서도 다국어 언어음성DB 구축이 시급한 실정이다.
한편 언어음성DB 구축은 철저한 품질 관리가 필수적으로 그 가격이 비싸다. 이를테면 유럽언어자원협회(ELRA·European Language Resources Association) 등 국외서 일부 외국어 음성 DB를 살 경우 1~2억원의 비용이 든다.
그러나 ETRI가 이번에 제공하는 4개국어 음성DB는 국외 DB의 5~10% 수준이다.
ETRI 자동통역연구실 이영직 박사는 “ETRI의 음성DB는 국가DB사업에서 요구하는 고품질 수준으로 국가지정 감리업체로부터 합격했다. 본 DB를 활용하면 언어음성기술의 완성도를 높일 수 있다. 따라서 신규시장 창출 및 국제경쟁력 강화에 큰 이바지를 할 것으로 보인다”고 설명했다. /이승규 기자 esk@
중도일보(www.joongdo.co.kr), 무단전재 및 수집, 재배포 금지