Meta AI выкатили ImageBind: первую AI-модель, способную связывать...
Meta AI выкатили ImageBind: первую AI-модель, способную связывать данные из 6 модальностей одновременно. Теперь текст, изображения, карты глубины, карты температур, аудио и IMU сигналы живут в одном пространстве. Мы на шаг ближе к тому, что машины смогут связывать объединять и анализировать информацию с разных сенсоров, прямо как это делает человек.
ImageBind учится выдавать эмбеддинги для данных из разных модальностей в общее пространство. По похожему принципу работает и CLIP / FLIP, но он выравнивает только эмбеддинги текста и картинок, что и используется в ваших любимых text-2-image сеточках таких как, SD.
Основная возможность, которую открывает ImageBind - кросс-модальный поиск по разным видам контента. Например, поиск ближайшего изображения по аудио.
Еще одно клёвое применение ImageBind: генерация изображений на основе входной звуковой дорожки, то есть можно генерить видеоряд для музыкальных треков. Базовое демо есть тут. Ждем, когда прикрутят к SD.
❱❱Блог
❱❱Код
❱❱Демо поиска
@ai_newz
ImageBind учится выдавать эмбеддинги для данных из разных модальностей в общее пространство. По похожему принципу работает и CLIP / FLIP, но он выравнивает только эмбеддинги текста и картинок, что и используется в ваших любимых text-2-image сеточках таких как, SD.
Основная возможность, которую открывает ImageBind - кросс-модальный поиск по разным видам контента. Например, поиск ближайшего изображения по аудио.
Еще одно клёвое применение ImageBind: генерация изображений на основе входной звуковой дорожки, то есть можно генерить видеоряд для музыкальных треков. Базовое демо есть тут. Ждем, когда прикрутят к SD.
❱❱Блог
❱❱Код
❱❱Демо поиска
@ai_newz
Источник: эйай ньюз
2023-05-10 08:51:43