Нейролента - подборка новостей о нейронных сетях, ChatGPT

🎙Клонирование и синтез голоса

GenAI стартап-бум продолжается. Стартап из Торонто resemble.ai занимается клонированием и синтезом голоса и вчера поднял $8M в Series A.

Это точно не единственная компания, которая занимается синтезом голоса. Но вот что интересно - тут можно загрузить записи своего голоса (нужно 12 минут) и они создадут генератор под ваш голос. Пока процесс создания модели под вас в бесплатной версии занимает 2 дня, а синтез из нее стоит $0.006 за секунду.

Из крутых юзкейсов, которые я вижу у них на сайте:
- Редактирование аудиозаписи по тексту. Например, я записал часовой подкаст и хочу подкорректировать некоторые фразы или предложения. Вместо записи новых кусочков аудио, я могу использовать выход speech2text на моей длинной аудиозаписи и редактировать подкаст, редактирую текстовый транскрипт. А моделька, обученная на моем голосе, будет синтезировать отрезки аудио, которые соответствуют измененному куску текста.
- Speech-to-speech: Это перевод аудиозаписи на разные языки, сохраняя голос, и изменения стиля повествования, добавляя разные эмоции.

К сожалению на сайте проекта еще не все описанные возможности доступны, но клонировать свой голос уже можно.

Борьба с дипфейками и нелегальным клонированием:
Интересно, что для борьбы с дипфейками и клонированием голосов, которые вам не принадлежать, от юзера требуют загрузить видео, где "клонируемый" человек говорит текст вроде "Я разрешаю загрузку моих аудио данных в resemble и даю согласие на использование его для генерации контента для юзера [email address]". То есть украсть золотой голос Баскова без его согласия не выйдет (на самом деле выйдет, если вы сами сможете собрать похожий пайплайн из кода на гитхабе).

@ai_newz