ИИ-видео-генератор от Snap
ИИ-видео-генератор от Snap.
Результаты и общий замысел мне нравятся гораздо больше, чем Stable Video Diffusion с его 4 сек макс, ибо это не оживление картинок и не модификация существующих image-моделей к генерации видео, а создание видео "с нуля".
Вот, что пишет Сергей Туляков:
Все видео генерируются с помощью нашей новейшей модели Snap Video. Мы представляем новую архитектуру на основе трансформеров, которая очень хорошо масштабируется по количеству параметров и графических процессоров (тут можно предположить, что в условиях дефицита GPU в Снапе сделал очень хорошую оптимизацию).
Это архитектура, ориентированная именно на видео - мы не адаптируем существующие модели изображений для создания видео, а относимся к видео как к "пассажирам первого класса" (first class citizens).
Вот тут можно найти сравнения с Пикой, Runway и другими:
https://snap-research.github.io/snapvideo/gen2_pikalab_floor33.html
Тут, конечно, привычный трюк сравнений черрипиков с нечеррипиками.. Но в шапке поста прям сторрителлинг.
А полный фарш с информацией тут:
https://snap-research.github.io/snapvideo/
Низкое разрешение в примерах смущает, качество тоже, но работа с пространством и динамика анимаций мне нравятся. Это уже больше симуляция трехмерного мира (пусть и низкого разрешения), чем шевеление пикселей на картинках и параллаксы.
Кода нет, и где это можно будет попробовать непонятно, но я знаю команду Снапа еще по давним киевским CG Event-ам, и отчаянно им симпатизирую.
Результаты и общий замысел мне нравятся гораздо больше, чем Stable Video Diffusion с его 4 сек макс, ибо это не оживление картинок и не модификация существующих image-моделей к генерации видео, а создание видео "с нуля".
Вот, что пишет Сергей Туляков:
Все видео генерируются с помощью нашей новейшей модели Snap Video. Мы представляем новую архитектуру на основе трансформеров, которая очень хорошо масштабируется по количеству параметров и графических процессоров (тут можно предположить, что в условиях дефицита GPU в Снапе сделал очень хорошую оптимизацию).
Это архитектура, ориентированная именно на видео - мы не адаптируем существующие модели изображений для создания видео, а относимся к видео как к "пассажирам первого класса" (first class citizens).
Вот тут можно найти сравнения с Пикой, Runway и другими:
https://snap-research.github.io/snapvideo/gen2_pikalab_floor33.html
Тут, конечно, привычный трюк сравнений черрипиков с нечеррипиками.. Но в шапке поста прям сторрителлинг.
А полный фарш с информацией тут:
https://snap-research.github.io/snapvideo/
Низкое разрешение в примерах смущает, качество тоже, но работа с пространством и динамика анимаций мне нравятся. Это уже больше симуляция трехмерного мира (пусть и низкого разрешения), чем шевеление пикселей на картинках и параллаксы.
Кода нет, и где это можно будет попробовать непонятно, но я знаю команду Снапа еще по давним киевским CG Event-ам, и отчаянно им симпатизирую.
Источник: Метаверсище и ИИще
2024-02-24 15:27:37