Нейролента - подборка новостей о нейронных сетях, ChatGPT

VoiceCraft: Zero-Shot редактор речи и Text2Speech. VoiceCraft -...

VoiceCraft: Zero-Shot редактор речи и Text2Speech

VoiceCraft - это нейрокодек, который может в редактирование записанной речи, позволяющий заменять сказанные слова на новые. На все про все ему нужно пару секунд референса, который можно взять из остальной записи.

Получается, можно полноценно редактировать какой-нибудь подкаст, вырезая лишнее и генеря заново текст.

Модель представляет собой авторегрессионный трансформер на 830М параметров, обученный на Gigaspeech XL. Чтобы перевести аудио в latent space используется модель EncodecModel с 56М параметров, натренированная по принципу VQGAN.

VoiceCraft генерит 13 секунд аудио примерно за 8 секунд на RTX 3080 (те быстрее самой записи), что по идее дает возможность редактировать речь в риалтайме.

Пока доступен только английский язык.

В перспективе, как уже сказано, можно использовать для монтажа подкастов, а также закадрового голоса. На данный момент, это вроде как SOTA из того, что есть в опенсорсе.

Ну а если прикрутить еще какой-нибудь wav2lip, то и видосы тоже можно будет редачить.

Статья
Сайт проекта с примерами
Код
Потыкать самостоятельно в хаггинге
Notebook

@ai_newz