🔥VALL-E: новая zero-shot text2speech модель от Microsoft
Эта модель берет на вход текст и 3-х секундный семпл голоса, на выходе получаем аудиофайл, где проговаривается заданный текст. Причем сохраняется персональность, стиль и интонация.
То есть, чтобы сгенерить голос нового человека, не нужно тренировать модель заново — достаточно только показать модели трехсекундный семпл. Ух, заживём!
Архитектура модели смахивает на Dalle-1 и использует трансформеры. Не путать с Dalle-2, которая работает на диффузии.
Примеры генерации снизу.
Кода пока нет. И я немного сомневаюсь, что они его выложат.
❱❱ Сайт проекта
@ai_newz
Эта модель берет на вход текст и 3-х секундный семпл голоса, на выходе получаем аудиофайл, где проговаривается заданный текст. Причем сохраняется персональность, стиль и интонация.
То есть, чтобы сгенерить голос нового человека, не нужно тренировать модель заново — достаточно только показать модели трехсекундный семпл. Ух, заживём!
Архитектура модели смахивает на Dalle-1 и использует трансформеры. Не путать с Dalle-2, которая работает на диффузии.
Примеры генерации снизу.
Кода пока нет. И я немного сомневаюсь, что они его выложат.
❱❱ Сайт проекта
@ai_newz
Источник: эйай ньюз
2023-01-06 21:33:57