sitelink1 https://blog.naver.com/jaeung24k/221023598338 
sitelink2  
sitelink3  

1. 개요

 

 음성합성기술. 모델로 선정된 한 사람의 말소리를 녹음하여 일정한 음성 단위로 분할한 다음, 부호를 붙여 합성기에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합쳐 말소리를 인위로 만들어내는 기술. 음성인식기술STT(Speech-to-Text)과는 별개임. 사람이 말을 녹음하면 대사가 바뀔때마다 그 부분을 다시 녹음해야 하지만 음성 합성 기술을 사용하면 다시 녹음할 필요가 없음.

 

2. 동작

 

 크게 음성 데이터를 생성하는 TTS엔진모듈과 생성된 음성 데이터를 재생하는 모듈로 구성되어 있다. 음성 데이터를 생성하는 TTS엔진모듈은 프론트 엔드와 백엔드로 구성된다. 먼저 프론트 엔드에서는 입력받은 텍스트를 단어 단위로 쪼개고 쪼갠 단어를 음소단위로 쪼개는 과정을 거친다. 각 음소는 발음 기호와 운율 정보를 조합하여 기호화된 언어 표현을 만들에 해당하는 전기적 신호를 생성한다. 백엔드는 프론트 엔드에서 생성한 언어표현을 바탕으로 보다 자연스러운 음성으로 만들기 위해 운율 등의 음성을 조정하여 최종 음성데이터를 생성한다.

 

3. PC 프로그램

 

(1) Balabolka

 오픈소스 프로그램.

TTS 엔진으로 MS SAPI(Speech API)와 Google 번역 API, eSpeak(오픈소스) 셋을 지원한다.

사실 TTS 프로그램은 껍데기에 불과하다. TTS 엔진과 음성데이터가 중요한데 무료든 불법이든 개인이 사용할 수 있는 TTS엔진은 위 셋이 전부라고 생각하면된다. 

 

(2) Say4Me

 라이센스 만료 / 추가 기술제공 없음

 

4. TTS 엔진

 

사실 TTS 프로그램은 껍데기에 불과하다. TTS 엔진과 음성데이터가 중요한데 무료든 불법이든 개인이 사용할 수 있는 TTS엔진은 아래 조사한 업체들이 거의 전부라고 생각하면된다. 

 

(1) MS SAPI (Speech-API)

 버전 5까지 나와있는 것으로 알고 있다. MS 윈도우에서 실행되는 프로그램에 TTS 기능을 제공하기 위해 윈도우에 내장되어 배포된다. SAPI를 사용하기 위한 SDK가 친절하게 윈도우개발자 사이트에서 배포되고 있다. 문제는 해당 API는 윈도우 및 윈도우 프로그램을 위해 MS에서 제공하는 것이기 때문에 SAPI를 통해 생성된 음원을 임베디드 장비에 넣는 것은 물론 공개적으로 재생하는 것 조차 제한하고 있다. 해당 음성의 외부 사용은 라이센스가 아닌 저작권에 위배된다. 상당히 공들였지만 저작권 문제로 포기!

 

(2) Google 번역 API

 비공식 API이다. 구글 번역(translate.google.com) 사이트에서 TTS 기능을 제공하는데 해당 HTTP request를 직접 호출이 가능하다. 이를 개인 홈페이지나 프로그램에 연결하여 음성을 재생해주는 사례들이 존재하고 심지어 Balabolka 프로그램에서는 Save Audio File by Online 메뉴를 통해 음성파일 취득이 가능하다. 그러나 Google의 비공식 API를 통해 취득된 음성 사용이 저작권에 위배되는지 알아볼수 있는 방법은 없었다. Google은 모든 상담창구를 자동화 및 기계화하여 소통할 수 있는 방법이 없었다. 고객센터 마스터 메일이라는 메일주소도 자동회신으로 반송될 뿐이다. 그러나 풍문으로는 구글 번역 API를 통해 취득한 음원을 사용한 기업이 Google의 소송에 졌다는 얘기가 있다. 그래서 이것도 포기.

 

(3) eSpeak

 독보적이고 유일한 오픈소스 TTS 엔진이다. 하지만 연구개발이 너무 안되어 있어서 상용에 비해 발음과 자연스러움이 많이 부족하다. 엔진과 함께 배포되는 음성데이터를 열어보면 발음기호를 음성으로 변환하는 규칙들이 존재하는데, 규칙이 너무 모자란 나머지 제대로된 음성합성이 안되는 것 같다. 공부용으로는 적합하나 상업에 적용하기는 무리다.

 

(4) 네이버 음성합성 API

 최근에 알게된 API인데 네이버에서 웹개발자들을 위해 공개했다. 네이버 Developers 사이트에서 사용방법을 제공하고 있다. 아직 초기라서 그런지 음성의 자연스러움은 MS나 Google에 비해 조금 떨어지는 느낌이 있다.

 

(5) Voice-Text

 요건 국내 1위 음성 합성 회사인 보이스웨어 사의 프로그램 명이다. 국내에서는 1위, 해외에서는 2위라고 하는데, 해외 1위 업체는 뉘앙스커뮤니케이션즈 사로 1위와 2위의 시장점유율 격차는 심한 것으로 알고있다. 뉘앙스커뮤니케이션즈 사는 음성 합성보다는 음성 인식 및 기타 솔루션에 치중하고 있고 워낙 글로벌한 회사다보니 기술지원이 거의 안된다고 한다. Voice-Text는 PC 프로그램 외에도 Embedded Linux 용 라이브러리르 제공하며, Tmap과 지하철 안내방송을 비롯한 많은 곳에서 쓰이다보니 들어보면 목소리가 친숙하다. 라이센스비용은 연간 생산 대수 및 언어종류에 따라 문의하여 견적을 받을 수 있다.

 

(6) Polly

 Amazon 클라우드에서 제공하는 서비스 중 하나로 클라우드 콘솔 및 웹 API를 통해 음성재생 및 음성파일 취득이 가능하다. 최근 화두가 되었던 Amazon echo에도 사용될 정도로 완성도 높은 음성을 제공하고 아시아권 나라의 언어지원이 다양하지 않은 것을 제외하면 사려깊은 서비스를 제공하고 있다.

 

 

5. 시장조사

 

개발하면서 라이센스는 항상 주의를 기울여왔는데, 이번 TTS 사양조사를 진행하면서는 저작권도 라이센스 못지않게 중요하다는 것을 알게 되었다. 어쩄든 조사결과 업체를 3곳으로 좁히게 되었다. 

 

TTS_업체.png

 

번호 제목 글쓴이 날짜 조회 수
38 모바일 디바이스에서 알림을 띄우는 방식 황제낙엽 2023.11.04 1
37 여러대의 맥에서 하나의 앱 개발하기 file 황제낙엽 2022.09.17 0
36 Galaxy Z Fold3 5G Specifications 황제낙엽 2022.03.07 101
35 cell phone rotate (vertical, horizon, portrait, landscape) 황제낙엽 2021.04.14 11
34 피들러(Fiddler)를 이용하여 모바일 네트웍 감시 file 황제낙엽 2020.02.24 732
33 UIWebView, WKWebView 황제낙엽 2019.11.01 84
32 모바일웹 SMS 황제낙엽 2019.09.28 239
31 안드로이드 모바일 브라우저 캐시 지우기 황제낙엽 2019.07.23 87
30 AsyncTask 황제낙엽 2019.03.25 55
29 [모바일 브라우저] Android 기기 원격 디버깅 시작하기 (PC크롬에서 모바일크롬 디버깅) file 황제낙엽 2019.01.14 125
28 TTS 이용하기 (구글, 네이버, KT) file 황제낙엽 2018.11.01 1001
» 음성합성(이하 TTS)관련 사양조사 및 시장조사 file 황제낙엽 2018.11.01 419
26 Canvas & Paint file 황제낙엽 2018.07.24 29
25 Bluetooth Connection을 사용하는 멀티플랫폼 앱 개발기 황제낙엽 2018.06.25 53
24 원격 데스크톱 환경을 위한 터치에 대한 제스쳐 목록 정의 황제낙엽 2018.06.12 239
23 팬(Pan), 스와이프(Swipe), 스크롤(Scroll), 플릭(Flick) file 황제낙엽 2017.09.11 629
22 Swift 와 Kotlin 황제낙엽 2017.07.29 77
21 위치정보(GeoLocation)에서 위도와 경도로 두 지점간 거리(distance) 구하는 오라클 Function 황제낙엽 2017.01.25 249
20 [Mysql] 위도 경도를 이용해 특정 거리안에 위치(거리) 구하기 황제낙엽 2017.01.25 357
19 [Android] / 안드로이드 / googlemap distance / 구글맵 두 위치 사이의 거리 구하기 황제낙엽 2017.01.23 97