Чтобы выучить свой голос, требуется 3 секунды!

ВАЛЛ-Э — это новая ГПТ-3

Microsoft выпустила бумагу о методе синтеза текста в речь с использованием подхода языкового моделирования под названием VALL-E. Эта модель использует дискретные коды, полученные из модели нейронного аудиокодека, и обучена обрабатывать TTS как условный язык…