Для гиков вышел Stable Diffusion 3: Research Paper

Для гиков вышел Stable Diffusion 3: Research Paper.

Негики узнают, что:

Самая большая модель SD3 с 8 миллиардов параметров помещается в 24 ГБ VRAM RTX 4090 и занимает 34 секунды для создания изображения с разрешением 1024x1024 при использовании 50 шагов (жоско). Делаем прогнозы, сколько будет занимать в памяти младшая модель на 800M параметров. Пишут, что младшие модели будут дико оптимизированы.

Основной упор в посте на улучшенное понимание промпта и на генерацию текста. Какие бенчмарки они использовали для измерения "качества генерации текста" мне неведомо (все равно текст выглядит хреново везде во всех генераторах). Наверное по количеству ошибок.

В пониманием промпта действительно должен быть скачок:

Поскольку ембединги текста и изображений концептуально совершенно разные, мы используем два отдельных набора весов для двух этих модальностей. Это эквивалентно наличию двух независимых трансформеров для каждой модальности, так что оба представления могут работать в своем собственном пространстве, но при этом учитывать другое.

Ждем-с. Закупаем видеокарты..
https://stability.ai/news/stable-diffusion-3-research-paper

P/S/ Ну и все эти бенчмарки типа human evaluations of Visual Aesthetics вызывают у меня хохот.
Типа у кого красивее...
Померим красоту на все случаи жизни..\

Источник: Метаверсище и ИИще

2024-03-05 11:25:34