VoiceCraft: Zero-Shot редактор речи и Text2Speech. VoiceCraft -...
VoiceCraft: Zero-Shot редактор речи и Text2Speech
VoiceCraft - это нейрокодек, который может в редактирование записанной речи, позволяющий заменять сказанные слова на новые. На все про все ему нужно пару секунд референса, который можно взять из остальной записи.
Получается, можно полноценно редактировать какой-нибудь подкаст, вырезая лишнее и генеря заново текст.
Модель представляет собой авторегрессионный трансформер на 830М параметров, обученный на Gigaspeech XL. Чтобы перевести аудио в latent space используется модель EncodecModel с 56М параметров, натренированная по принципу VQGAN.
VoiceCraft генерит 13 секунд аудио примерно за 8 секунд на RTX 3080 (те быстрее самой записи), что по идее дает возможность редактировать речь в риалтайме.
Пока доступен только английский язык.
В перспективе, как уже сказано, можно использовать для монтажа подкастов, а также закадрового голоса. На данный момент, это вроде как SOTA из того, что есть в опенсорсе.
Ну а если прикрутить еще какой-нибудь wav2lip, то и видосы тоже можно будет редачить.
Статья
Сайт проекта с примерами
Код
Потыкать самостоятельно в хаггинге
Notebook
@ai_newz
VoiceCraft - это нейрокодек, который может в редактирование записанной речи, позволяющий заменять сказанные слова на новые. На все про все ему нужно пару секунд референса, который можно взять из остальной записи.
Получается, можно полноценно редактировать какой-нибудь подкаст, вырезая лишнее и генеря заново текст.
Модель представляет собой авторегрессионный трансформер на 830М параметров, обученный на Gigaspeech XL. Чтобы перевести аудио в latent space используется модель EncodecModel с 56М параметров, натренированная по принципу VQGAN.
VoiceCraft генерит 13 секунд аудио примерно за 8 секунд на RTX 3080 (те быстрее самой записи), что по идее дает возможность редактировать речь в риалтайме.
Пока доступен только английский язык.
В перспективе, как уже сказано, можно использовать для монтажа подкастов, а также закадрового голоса. На данный момент, это вроде как SOTA из того, что есть в опенсорсе.
Ну а если прикрутить еще какой-нибудь wav2lip, то и видосы тоже можно будет редачить.
Статья
Сайт проекта с примерами
Код
Потыкать самостоятельно в хаггинге
Notebook
@ai_newz
Источник: эйай ньюз
2024-04-12 15:52:25