Нейролента - подборка новостей о нейронных сетях, ChatGPT

А тем временем Ян ЛеКун в твитторе поясняет...

А тем временем Ян ЛеКун в твитторе поясняет за симуляцию окружающего мира и говорит, что метачкина V-JEPA еще всем покажет, как генерить видео.

Позвольте мне прояснить *огромное* недоразумение.
Генерация в основном реалистично выглядящих видеороликов на основе подсказок *не* указывает на то, что система понимает физический мир.
Генерация сильно отличается от каузального предсказания на основе модели мира.
Пространство правдоподобных видео очень велико, и системе генерации видео достаточно создать *один* образец, чтобы добиться успеха.
Пространство правдоподобных продолжений реального видео *значительно* меньше, и сгенерировать репрезентативный фрагмент из них - гораздо более сложная задача, особенно если это обусловлено каким-либо действием.
Кроме того, генерировать эти продолжения будет не только дорого, но и совершенно бессмысленно.
Гораздо желательнее генерировать *абстрактные представления* этих продолжений, которые устраняют детали сцены, не имеющие отношения к любому действию, которое мы можем захотеть предпринять.
В этом и заключается суть JEPA (Joint Embedding Predictive Architecture), которая является *не генеративной* и делает предсказания в пространстве представлений.
Наша работа над VICReg, I-JEPA, V-JEPA и работы других авторов показывают, что архитектуры Joint Embedding создают гораздо лучшие представления визуальных входов, чем генеративные архитектуры, которые восстанавливают пиксели (такие как Variational AE, Masked AE, Denoising AE и т. д.).
При использовании полученных представлений в качестве входных данных для supervised head , обученной на последующих задачах, Joint Embedding выигрывает у генеративной архитектуры.

https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/