음성합성(이하 TTS)관련 사양조사 및 시장조사

황제낙엽 2018.11.01 05:34 조회 수 : 419

sitelink1	https://blog.naver.com/jaeung24k/221023598338
sitelink2
sitelink3

1. 개요

음성합성기술. 모델로 선정된 한 사람의 말소리를 녹음하여 일정한 음성 단위로 분할한 다음, 부호를 붙여 합성기에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합쳐 말소리를 인위로 만들어내는 기술. 음성인식기술STT(Speech-to-Text)과는 별개임. 사람이 말을 녹음하면 대사가 바뀔때마다 그 부분을 다시 녹음해야 하지만 음성 합성 기술을 사용하면 다시 녹음할 필요가 없음.

2. 동작

크게 음성 데이터를 생성하는 TTS엔진모듈과 생성된 음성 데이터를 재생하는 모듈로 구성되어 있다. 음성 데이터를 생성하는 TTS엔진모듈은 프론트 엔드와 백엔드로 구성된다. 먼저 프론트 엔드에서는 입력받은 텍스트를 단어 단위로 쪼개고 쪼갠 단어를 음소단위로 쪼개는 과정을 거친다. 각 음소는 발음 기호와 운율 정보를 조합하여 기호화된 언어 표현을 만들에 해당하는 전기적 신호를 생성한다. 백엔드는 프론트 엔드에서 생성한 언어표현을 바탕으로 보다 자연스러운 음성으로 만들기 위해 운율 등의 음성을 조정하여 최종 음성데이터를 생성한다.

3. PC 프로그램

(1) Balabolka

오픈소스 프로그램.

TTS 엔진으로 MS SAPI(Speech API)와 Google 번역 API, eSpeak(오픈소스) 셋을 지원한다.

사실 TTS 프로그램은 껍데기에 불과하다. TTS 엔진과 음성데이터가 중요한데 무료든 불법이든 개인이 사용할 수 있는 TTS엔진은 위 셋이 전부라고 생각하면된다.

(2) Say4Me

라이센스 만료 / 추가 기술제공 없음

4. TTS 엔진

사실 TTS 프로그램은 껍데기에 불과하다. TTS 엔진과 음성데이터가 중요한데 무료든 불법이든 개인이 사용할 수 있는 TTS엔진은 아래 조사한 업체들이 거의 전부라고 생각하면된다.

(1) MS SAPI (Speech-API)

버전 5까지 나와있는 것으로 알고 있다. MS 윈도우에서 실행되는 프로그램에 TTS 기능을 제공하기 위해 윈도우에 내장되어 배포된다. SAPI를 사용하기 위한 SDK가 친절하게 윈도우개발자 사이트에서 배포되고 있다. 문제는 해당 API는 윈도우 및 윈도우 프로그램을 위해 MS에서 제공하는 것이기 때문에 SAPI를 통해 생성된 음원을 임베디드 장비에 넣는 것은 물론 공개적으로 재생하는 것 조차 제한하고 있다. 해당 음성의 외부 사용은 라이센스가 아닌 저작권에 위배된다. 상당히 공들였지만 저작권 문제로 포기!

(2) Google 번역 API

비공식 API이다. 구글 번역(translate.google.com) 사이트에서 TTS 기능을 제공하는데 해당 HTTP request를 직접 호출이 가능하다. 이를 개인 홈페이지나 프로그램에 연결하여 음성을 재생해주는 사례들이 존재하고 심지어 Balabolka 프로그램에서는 Save Audio File by Online 메뉴를 통해 음성파일 취득이 가능하다. 그러나 Google의 비공식 API를 통해 취득된 음성 사용이 저작권에 위배되는지 알아볼수 있는 방법은 없었다. Google은 모든 상담창구를 자동화 및 기계화하여 소통할 수 있는 방법이 없었다. 고객센터 마스터 메일이라는 메일주소도 자동회신으로 반송될 뿐이다. 그러나 풍문으로는 구글 번역 API를 통해 취득한 음원을 사용한 기업이 Google의 소송에 졌다는 얘기가 있다. 그래서 이것도 포기.

(3) eSpeak

독보적이고 유일한 오픈소스 TTS 엔진이다. 하지만 연구개발이 너무 안되어 있어서 상용에 비해 발음과 자연스러움이 많이 부족하다. 엔진과 함께 배포되는 음성데이터를 열어보면 발음기호를 음성으로 변환하는 규칙들이 존재하는데, 규칙이 너무 모자란 나머지 제대로된 음성합성이 안되는 것 같다. 공부용으로는 적합하나 상업에 적용하기는 무리다.

(4) 네이버 음성합성 API

최근에 알게된 API인데 네이버에서 웹개발자들을 위해 공개했다. 네이버 Developers 사이트에서 사용방법을 제공하고 있다. 아직 초기라서 그런지 음성의 자연스러움은 MS나 Google에 비해 조금 떨어지는 느낌이 있다.

(5) Voice-Text

요건 국내 1위 음성 합성 회사인 보이스웨어 사의 프로그램 명이다. 국내에서는 1위, 해외에서는 2위라고 하는데, 해외 1위 업체는 뉘앙스커뮤니케이션즈 사로 1위와 2위의 시장점유율 격차는 심한 것으로 알고있다. 뉘앙스커뮤니케이션즈 사는 음성 합성보다는 음성 인식 및 기타 솔루션에 치중하고 있고 워낙 글로벌한 회사다보니 기술지원이 거의 안된다고 한다. Voice-Text는 PC 프로그램 외에도 Embedded Linux 용 라이브러리르 제공하며, Tmap과 지하철 안내방송을 비롯한 많은 곳에서 쓰이다보니 들어보면 목소리가 친숙하다. 라이센스비용은 연간 생산 대수 및 언어종류에 따라 문의하여 견적을 받을 수 있다.

(6) Polly

Amazon 클라우드에서 제공하는 서비스 중 하나로 클라우드 콘솔 및 웹 API를 통해 음성재생 및 음성파일 취득이 가능하다. 최근 화두가 되었던 Amazon echo에도 사용될 정도로 완성도 높은 음성을 제공하고 아시아권 나라의 언어지원이 다양하지 않은 것을 제외하면 사려깊은 서비스를 제공하고 있다.

5. 시장조사

TTS_업체.png

TTS_업체.png [File Size:22.9KB/Download:21]

이 게시물을

번호	제목	글쓴이	날짜	조회 수
38	모바일 디바이스에서 알림을 띄우는 방식	황제낙엽	2023.11.04	1
37	여러대의 맥에서 하나의 앱 개발하기	황제낙엽	2022.09.17	0
36	Galaxy Z Fold3 5G Specifications	황제낙엽	2022.03.07	101
35	cell phone rotate (vertical, horizon, portrait, landscape)	황제낙엽	2021.04.14	11
34	피들러(Fiddler)를 이용하여 모바일 네트웍 감시	황제낙엽	2020.02.24	732
33	UIWebView, WKWebView	황제낙엽	2019.11.01	84
32	모바일웹 SMS	황제낙엽	2019.09.28	239
31	안드로이드 모바일 브라우저 캐시 지우기	황제낙엽	2019.07.23	87
30	AsyncTask	황제낙엽	2019.03.25	55
29	[모바일 브라우저] Android 기기 원격 디버깅 시작하기 (PC크롬에서 모바일크롬 디버깅)	황제낙엽	2019.01.14	125
28	TTS 이용하기 (구글, 네이버, KT)	황제낙엽	2018.11.01	1001
»	음성합성(이하 TTS)관련 사양조사 및 시장조사	황제낙엽	2018.11.01	419
26	Canvas & Paint	황제낙엽	2018.07.24	29
25	Bluetooth Connection을 사용하는 멀티플랫폼 앱 개발기	황제낙엽	2018.06.25	53
24	원격 데스크톱 환경을 위한 터치에 대한 제스쳐 목록 정의	황제낙엽	2018.06.12	239
23	팬(Pan), 스와이프(Swipe), 스크롤(Scroll), 플릭(Flick)	황제낙엽	2017.09.11	629
22	Swift 와 Kotlin	황제낙엽	2017.07.29	77
21	위치정보(GeoLocation)에서 위도와 경도로 두 지점간 거리(distance) 구하는 오라클 Function	황제낙엽	2017.01.25	249
20	[Mysql] 위도 경도를 이용해 특정 거리안에 위치(거리) 구하기	황제낙엽	2017.01.25	357
19	[Android] / 안드로이드 / googlemap distance / 구글맵 두 위치 사이의 거리 구하기	황제낙엽	2017.01.23	97

쓰기 태그

첫 페이지 1 2 끝 페이지

음성합성(이하 TTS)관련 사양조사 및 시장조사

댓글 0

로그인