Ключевых деталей вроде точной архитектуры, принцнипа сборки и...
Ключевых деталей вроде точной архитектуры, принцнипа сборки и фильтрации датасета нет, но всё же интересности нашлись. Тезисно:
— OpenAI продолжают развивать свой путь к выучиванию большими нейронками картины мира просто из доступных данных, без лишних усложнений. Если вы смотрели лекции 1.1 и 1.2 моего курса, то для вас это не новость — я рассказывал, что ещё в 2017м году до GPT-1 топовые исследователи делали Proof-of-Concept для этого. Отсюда и название работы: модели генерации видео как СИМУЛЯТОРЫ МИРА
— Также как и для других моделей, здесь соблюдаются законы масштабирования: больше моделька, больше вычислительных мощностей = лучше результат. Боюсь представить, сколько времени это всё училось.
— Обычно модели генерации видео учатся на обрезанных до одного и того же (малого) размера кадра. Например, 256x256 пикселей. В OpenAI решили тренировать на том, что было, в разрешении вплоть до FullHD и с любым соотношением сторон. Это позволяет Sora генерировать хоть вертикальные видео, хоть горизонтальные, хоть аналоги того, что снимают на плёнку 2.35:1
— Для тренировки такой модели нужно огромное количество видео с грамотно составленным текстовым описанием. Такого контента в мире мало, поэтому делают тот же трюк, что был применён в DALL-E 3: обучают отдельную модель для написания высококачественного, но короткого описания, а затем с помощью GPT-4v расшивают его деталями. Обучение на синтетических описаниях значимо увеличивает качество генерации, отмечают исследователи
— Так как в основе лежит трансформер, который принимает вектора и выплёвывает вектора, то можно делать разную магию: можно генерировать не видео, а изображение, можно просить анимировать уже нарисованную кем-то или чем-то картинку, можно просить догенерировать видео — причём не обязательно только в будущее, можно получить и кадры из прошлого, что предшествовало куску видео. А ещё можно заставлять модель склеивать пары видео в одно (примеры скину ниже)
И теперь самое главное: навыки, которым никто модель не учил, но которые сами по себе появились из-за беспрецедентного (™) масштаба:
— согласованность 3D пространства: камера может свободно перемещаться в «виртуальном мире» (существующем в момент генерации), крутиться итд.
— постоянство объектов в кадре и долгосрочная память: в течение всего видео какие-то ключевые объекты не будут менять ни форму, ни текстуру (как это бывало почти у всех предыдущих моделей). Если какие-то объекты пропадают из кадра, то часто появляются такими же, какими были до исчезновения, и в правильном месте
— интерактивность мира: объекты могут взаимодействовать и реалистично изменяться, хоть и не идеально (см. примеры ниже)
— симуляция цифровых миров: вот это очень интересный пункт. Sora может воссоздать мир игры Minecraft (жаль какую-то динамическую стрелялку не показали!) и одновременно управлять игроком в Minecraft (вернее симулировать поведение игрока), а также отображать мир и его изменение с высокой точностью. И всё это без детального описания в промпте. Эти «навыки» модели позволяют предположить, что дальнейшее масштабирование видеомоделей является многообещающим путем к разработке высокофункциональных симуляторов физического и цифрового миров, а также объектов, животных и людей, которые «живут» в них. Звучит как фантастика, но серьёзно — а что остаётся модели делать, чтобы хорошо предсказывать часовые видео? Приходится симулировать действо в них, понимая логику всех объектов, самого физического мира и его правил
Однако у этого симулятора есть множество недостатков, которые заметны при детальнейшем рассмотрении генераций. Увеличим модельку ещё — увидим, к чему этонас OpenAI приведёт!
— OpenAI продолжают развивать свой путь к выучиванию большими нейронками картины мира просто из доступных данных, без лишних усложнений. Если вы смотрели лекции 1.1 и 1.2 моего курса, то для вас это не новость — я рассказывал, что ещё в 2017м году до GPT-1 топовые исследователи делали Proof-of-Concept для этого. Отсюда и название работы: модели генерации видео как СИМУЛЯТОРЫ МИРА
— Также как и для других моделей, здесь соблюдаются законы масштабирования: больше моделька, больше вычислительных мощностей = лучше результат. Боюсь представить, сколько времени это всё училось.
— Обычно модели генерации видео учатся на обрезанных до одного и того же (малого) размера кадра. Например, 256x256 пикселей. В OpenAI решили тренировать на том, что было, в разрешении вплоть до FullHD и с любым соотношением сторон. Это позволяет Sora генерировать хоть вертикальные видео, хоть горизонтальные, хоть аналоги того, что снимают на плёнку 2.35:1
— Для тренировки такой модели нужно огромное количество видео с грамотно составленным текстовым описанием. Такого контента в мире мало, поэтому делают тот же трюк, что был применён в DALL-E 3: обучают отдельную модель для написания высококачественного, но короткого описания, а затем с помощью GPT-4v расшивают его деталями. Обучение на синтетических описаниях значимо увеличивает качество генерации, отмечают исследователи
— Так как в основе лежит трансформер, который принимает вектора и выплёвывает вектора, то можно делать разную магию: можно генерировать не видео, а изображение, можно просить анимировать уже нарисованную кем-то или чем-то картинку, можно просить догенерировать видео — причём не обязательно только в будущее, можно получить и кадры из прошлого, что предшествовало куску видео. А ещё можно заставлять модель склеивать пары видео в одно (примеры скину ниже)
И теперь самое главное: навыки, которым никто модель не учил, но которые сами по себе появились из-за беспрецедентного (™) масштаба:
— согласованность 3D пространства: камера может свободно перемещаться в «виртуальном мире» (существующем в момент генерации), крутиться итд.
— постоянство объектов в кадре и долгосрочная память: в течение всего видео какие-то ключевые объекты не будут менять ни форму, ни текстуру (как это бывало почти у всех предыдущих моделей). Если какие-то объекты пропадают из кадра, то часто появляются такими же, какими были до исчезновения, и в правильном месте
— интерактивность мира: объекты могут взаимодействовать и реалистично изменяться, хоть и не идеально (см. примеры ниже)
— симуляция цифровых миров: вот это очень интересный пункт. Sora может воссоздать мир игры Minecraft (жаль какую-то динамическую стрелялку не показали!) и одновременно управлять игроком в Minecraft (вернее симулировать поведение игрока), а также отображать мир и его изменение с высокой точностью. И всё это без детального описания в промпте. Эти «навыки» модели позволяют предположить, что дальнейшее масштабирование видеомоделей является многообещающим путем к разработке высокофункциональных симуляторов физического и цифрового миров, а также объектов, животных и людей, которые «живут» в них. Звучит как фантастика, но серьёзно — а что остаётся модели делать, чтобы хорошо предсказывать часовые видео? Приходится симулировать действо в них, понимая логику всех объектов, самого физического мира и его правил
Однако у этого симулятора есть множество недостатков, которые заметны при детальнейшем рассмотрении генераций. Увеличим модельку ещё — увидим, к чему это
Источник: Сиолошная
2024-02-16 02:17:46