Китайцы уверенно вторгаются на территорию open-source, где когда-то...

Китайцы уверенно вторгаются на территорию open-source, где когда-то солировала Stability AI.

Alibaba Group, похоже не имеет проблем с деньгами, инвесторами и странным CEO и за последнее время они выпускают просто огромное количество интересных работ.

Смотрите, новый генератор видео I2VGen-XL (анонсирован в ноябре, а в пятницу выпустили исходный код). Поглядите очень интересные примеры тут:
https://i2vgen-xl.github.io/
Там же ссылки на код.

I2VGen-XL работает в два этапа: базовый этап направлен на поддержание согласованности с входным текстом и изображениями, а этап доработки повышает детализацию и разрешение видео, достигая 1280x720 пикселей. По питу рефайнерв в SDXL.
Alibaba Cloud утверждает, что для обучения модели использовался обширный набор данных, включающий около 35 миллионов пар "текст-видео" и 6 миллиардов пар "текст-изображение".

Также Алибаба недавно взорвали интернетик демонстрацией Animate Anyone: некипящим решением для анимации персонажей со своим ControlNet-ом под названием ReferenceNet.
Код появится вот-вот, а конкуренты (Тик-Ток) поспешно выпускают решения с готовым кодом типа Magic Animate (выглядит хуже).
https://humanaigc.github.io/animate-anyone/
https://showlab.github.io/magicanimate/

Хотите пилить стартап? Делайте удобный интерфейс для всех этих видео и анимационных генераторов. Пока это просто говно и палки. Даже для генерации картинок, все эти веб-интерфейсы, где программисты переизобретают инструменты конца 90-х, представляются собой разношерстный зоопарк.

Источник: Метаверсище и ИИще

2023-12-18 11:53:14