Stable Diffusion только для звука

Stable Diffusion только для звука.

Метачка выпустила Foundation Model для генерации звука. Не только голоса или музыки. Для всего. Включая спецэффекты, шумы и вообще любой звук, который вам приходилось слышать.
Такие работы были у Микрософта и других, но здесь уже какой-то другой уровень и универсальность.
Audiobox SSL Foundation Model - означает, что на базе ее можно тренировать чекпойнты для специализированного звука, и там уже есть две такие модели - Audiobox Speech and Audiobox Sound.
Что там есть?
Клонирование голоса (image2image)
Описание голоса текстом(!) и генерацию этого голоса (text2image)
Рестайлинг голоса и комбинирование любых голосов (revision)
Звуковые эффекты и шумы (text2image any style)
Вырезание кусков по их описанию (remove background)
Sound Infilling - замена одного звука на другой (inpainting)

Для меня все это выглядит как Stable Diffusion для обобщенного звука.

Да, их генератор голоса или музыкальных звуков выглядит хуже специализированных моделей, но это генератор всего! Из текста (и референса).
И если они выложат это в open source и люди начнут тренировать на определенных классах звуков, то это может быть бомбой.

А еще у них даже есть AudioMAker - как бы монтажка для сгенерированных звуков, которая позволяет рассказывать истории. И с помощью нее уже можно делать детские сказки или аудио-спектакли.

Поглядите сюда. Там наверху меню, пробегитесь по сайту, впечатляет.
https://audiobox.metademolab.com/

Источник: Метаверсище и ИИще

2023-12-12 09:03:03