Синтез речи из текста (TTS)
Text-to-speech, или TTS, — это технология, преобразующая письменный текст в звучащую речь, разновидность синтеза речи.[1] Современные системы используют машинное обучение для создания естественно звучащих голосов с подходящим ритмом и интонацией и могут озвучивать произвольный текст по запросу.
В работе над медиа и продуктами TTS применяется для доступности, голосовых интерфейсов, быстрого прототипирования диалогов и контента, который необходимо генерировать или обновлять в больших объёмах. Проектирование хорошего опыта работы с TTS включает выбор голосов, настройку произношения и интеграцию системы так, чтобы её вывод естественно вписывался в окружающий звук.[2]