Кто-то наваял удобоваримый интерфейс для генерации музыки —...
Кто-то наваял удобоваримый интерфейс для генерации музыки — AI Jukebox. Пишешь промт, выбираешь длительность, жанр, настроение, и жмёшь сгенерить.
После Udio это конечно всё не то, но суть вообще в другом: не нужно хостить миллионы треков, так как музыка генерится локально у слушателя. На первом запуске качается 600мб какой-то итерации MusicGen, а дальше через WebGPU оно обрабатывается прямо в браузере (не надо касаться ни кода, ничего).
Следом пойдут маленькие мощные модели, которые будут заточены на определённом стиле типа 90' nu-metal, Berlin techno, Japanese noise, djent, future garage, итд. Люди смогут подключать голоса артистов или звучание групп из их официальных датасетов с выплатами за использование через смарт контракты. Или юзать на халяву народные датасеты, собранные из задоначенного аудио, а также контента в свободном доступе. Подрубят крутилки, чтобы можно было поточнее настроить под себя волну. А для тех, кому нужен детальный контроль над каждым стемом (высотой голоса, позицией инструмента, итд) будут плагины для давок и аудиоредакторов.
Сейчас максимальная длительность на выходе 30 секунд, особо не разбежишься. Хотя Udio ведь по 33 секунды и генерит. Будем ждать когда кто-то пришьёт расширение трека влево/вправо как у них. До новой фичи Krea опенсорс добрался чуть ли не в тот-же день.
Другое дело, что нужен реалтайм, какой-то аналог LCM или Turbo только для аудио, потому что у меня на эти 30 секунд ушло 10 минут генерации. Сколько у вас и на каком железе?
Генерить музыку
После Udio это конечно всё не то, но суть вообще в другом: не нужно хостить миллионы треков, так как музыка генерится локально у слушателя. На первом запуске качается 600мб какой-то итерации MusicGen, а дальше через WebGPU оно обрабатывается прямо в браузере (не надо касаться ни кода, ничего).
Следом пойдут маленькие мощные модели, которые будут заточены на определённом стиле типа 90' nu-metal, Berlin techno, Japanese noise, djent, future garage, итд. Люди смогут подключать голоса артистов или звучание групп из их официальных датасетов с выплатами за использование через смарт контракты. Или юзать на халяву народные датасеты, собранные из задоначенного аудио, а также контента в свободном доступе. Подрубят крутилки, чтобы можно было поточнее настроить под себя волну. А для тех, кому нужен детальный контроль над каждым стемом (высотой голоса, позицией инструмента, итд) будут плагины для давок и аудиоредакторов.
Сейчас максимальная длительность на выходе 30 секунд, особо не разбежишься. Хотя Udio ведь по 33 секунды и генерит. Будем ждать когда кто-то пришьёт расширение трека влево/вправо как у них. До новой фичи Krea опенсорс добрался чуть ли не в тот-же день.
Другое дело, что нужен реалтайм, какой-то аналог LCM или Turbo только для аудио, потому что у меня на эти 30 секунд ушло 10 минут генерации. Сколько у вас и на каком железе?
Генерить музыку
Источник: Psy Eyes
2024-04-21 07:55:52