Нейролента - подборка новостей о нейронных сетях, ChatGPT

Meta AI выкатили ImageBind: первую AI-модель, способную связывать...

Meta AI выкатили ImageBind: первую AI-модель, способную связывать данные из 6 модальностей одновременно. Теперь текст, изображения, карты глубины, карты температур, аудио и IMU сигналы живут в одном пространстве. Мы на шаг ближе к тому, что машины смогут связывать объединять и анализировать информацию с разных сенсоров, прямо как это делает человек.

ImageBind учится выдавать эмбеддинги для данных из разных модальностей в общее пространство. По похожему принципу работает и CLIP / FLIP, но он выравнивает только эмбеддинги текста и картинок, что и используется в ваших любимых text-2-image сеточках таких как, SD.

Основная возможность, которую открывает ImageBind - кросс-модальный поиск по разным видам контента. Например, поиск ближайшего изображения по аудио.

Еще одно клёвое применение ImageBind: генерация изображений на основе входной звуковой дорожки, то есть можно генерить видеоряд для музыкальных треков. Базовое демо есть тут. Ждем, когда прикрутят к SD.

❱❱Блог
❱❱Код
❱❱Демо поиска

@ai_newz