🔥CM3leon - Новая универсальная генеративная модель для Картинок и текста
Ребята из Meta AI (FAIR) представили новую генеративную модель. Это по сути мультимодальная decoder-only LLM на базе архитектуры OPT, которая умеет работать как с изображениями, так и с текстом.
Для картинок используется предобученный токенизатор VQ-VAE, который разбивает 256x256 изображеие на 1024 токена из словаря размером в 8192.
Натренили модельку на 7 млрд параметров — CM3Leon-7B, которая хорошо генерит в 256x256 и выдает state-of-the-art FID = 4.8 на MS-COCO.
Модель умеет:
1. text-to-image
2. image-to-text, то есть можно спрашивать любые вопросы по картинке
3. image-to-image с текстовой инструкцией
Одна генерация 256x256 занимает 9 сек в int8 (для сравнения авторегрессионная модель Parti-3В требует 6.4 сек, но дает хуже результаты).
Блог
Статья
@ai_newz
Ребята из Meta AI (FAIR) представили новую генеративную модель. Это по сути мультимодальная decoder-only LLM на базе архитектуры OPT, которая умеет работать как с изображениями, так и с текстом.
Для картинок используется предобученный токенизатор VQ-VAE, который разбивает 256x256 изображеие на 1024 токена из словаря размером в 8192.
Натренили модельку на 7 млрд параметров — CM3Leon-7B, которая хорошо генерит в 256x256 и выдает state-of-the-art FID = 4.8 на MS-COCO.
Модель умеет:
1. text-to-image
2. image-to-text, то есть можно спрашивать любые вопросы по картинке
3. image-to-image с текстовой инструкцией
Одна генерация 256x256 занимает 9 сек в int8 (для сравнения авторегрессионная модель Parti-3В требует 6.4 сек, но дает хуже результаты).
Блог
Статья
@ai_newz
Источник: эйай ньюз
2023-07-15 01:07:24