전체 자료

음성 합성(Speech Synthesis)


음성 합성은 컴퓨터 시스템이 인간의 음성을 인공적으로 만들어 내는 것이다.[1] 초기 방식은 녹음된 조각을 이어 붙이거나 성도(聲道)를 직접 모델링했지만, 현대 시스템은 심층 신경망을 사용해 자연스러운 화자와 매우 유사한 파형을 생성한다.

합성된 음성의 품질은 정확한 강세, 타이밍, 감정을 포함해 얼마나 알아듣기 쉽고 자연스럽게 들리는지로 평가된다. 음성 합성은 텍스트 음성 변환, 음성 비서, 그리고 다양한 접근성 도구의 기반이 되며, 보이스 클로닝 같은 보다 전문적인 기법이 구축되는 토대이기도 하다.[2]