End2End моделирование голоса
Синтез речи (или text-to-speech) — это задача формирования сигнала, похожего на человеческую речь, по тексту. Обычно решение этой задачи разделяется на три части (модели): G2P, акустическая модель и вокодер.
Основная проблема подхода в том, что эти три модели обучаются независимо друг от друга. Именно поэтому в последнее время распространяется использование end2end обучения, которое использует единую модель для решения всей задачи, без разбиения на несколько независимых моделей. Глобальная задача этого проекта — построить end2end модель для синтеза речи.