본문 바로가기

AI/음성(Speech)2

[음성 기초] Vocoder (보코더) 1. 보코더의 정의 1) 위키백과 https://ko.wikipedia.org/wiki/%EB%B3%B4%EC%BD%94%EB%8D%94 보코더(영어 : vocoder)는 《보이스》(voice)와 《코더》(coder)의 합성어로, 전자 악기와 이펙터의 일종이다. 신시사이저의 종류로 분류되기도 한다. 본래의 의미는 통신을 위한 음성 압축 기술로, 휴대폰 등 다양한 기기에 사용되고 있다. 음성 파형을 직접 보내는 것이 아니라 매개 변수가 보내고, 수신 측에서는 그 매개 변수에서 원본 음성을 합성한다. 음악용 보코더는 이 기술을 응용한 것이다. - 원래 보코더는 음성 통신에서 음성 압축 기술로 태어난 것으로, 미국의 벨 연구소의 호머 더들리 (Homer Dudley)가 1928년에 기본적인 아이디어를 발안했다.. 2022. 3. 2.
[음성딥러닝] 고전적인 음성합성 모델① : Unit-Selection speech synthesis 최근에는 음성합성 분야에서 End-to-End 딥러닝 모델들이 많이 등장하고, 좋은 성능을 기록하고 있습니다. 그 이전 단계의 음성합성 분야에서는 어떤 모델들이 많이 쓰였는지 살펴보도록 하겠습니다. 1) Unit-Selection speech synthesis [1] - concatenative synthesis의 한 유형 - 작은 단위로 이루어진 사전 녹음된 waveform들을 붙여서 전체를 완성 - 딥러닝 기반 End-to-End 모델 등장 이전 대세를 이루던 방법론 1) A. J. Hunt and A. W. Black, “Unit selection in a concatenative speech synthesis system using a large speech database,” in Proc. I.. 2022. 2. 26.