🔥VALL-E: новая zero-shot text2speech модель от Microsoft

Эта модель берет на вход текст и 3-х секундный семпл голоса, на выходе получаем аудиофайл, где проговаривается заданный текст. Причем сохраняется персональность, стиль и интонация.

То есть, чтобы сгенерить голос нового человека, не нужно тренировать модель заново — достаточно только показать модели трехсекундный семпл. Ух, заживём!

Архитектура модели смахивает на Dalle-1 и использует трансформеры. Не путать с Dalle-2, которая работает на диффузии.

Примеры генерации снизу.

Кода пока нет. И я немного сомневаюсь, что они его выложат.

❱❱ Сайт проекта

@ai_newz

Источник: эйай ньюз

2023-01-06 21:33:57