Нейролента - подборка новостей о нейронных сетях, ChatGPT

Экспертный совет для картинок

Экспертный совет для картинок. Stable Diffusion Mixture of Experts

Помните недавно вышел Микстраль 8x7B, построенный на концепции Mixture of Experts. Там внутри как бы несколько LLM(экспертов) и раутер, которые решает, кому лучше отдать решение задачи-запроса, пришедшего от пользователя. Обычно промпт отдается двум экспертам, которых выбрал раутер, и они уже хлещутся друг с другом о том, как лучше ответить на входящий промпт.

А теперь представьте такое же, только для картинок!

Ну и встречайте: SegMoE: Segmind Mixture Of Diffusion Experts

Если кратко.
Модели SegMoE имеют ту же архитектуру, что и Stable Diffusion. Как и в Mixtral 8x7b, модель SegMoE представляет собой несколько моделей в одной. Это происходит за счет замены некоторых слоев Feed-Forward на разреженный слой MoE. Слой MoE содержит сеть маршрутизаторов для выбора экспертов, которые обрабатывают токены наиболее эффективно. Вы можете использовать пакет segmoe для создания собственных моделей MoE!

https://huggingface.co/blog/segmoe#what-is-segmoe

Господа Гупта, Вишну и Прабхала сотворили настоящую камасутру для генерации картинок - смотрите прмеры на сайте. И давайте погадаем, сколько видеопамяти понадобится для такой оргии диффузионных агентов.

Ну круто же. Даете промпт, а там под ковром начинается возня, кто и как сделает именно вашу картинку. Можете устраивать баттлы из чекпойнтов. Можно подгружать туда свои чекпойнты.

Код? Апажалста:
https://github.com/segmind/segmoe

Не верите, что это работает? Глядите сюда:
https://www.youtube.com/watch?v=6Q4BJOcvwGE

Не терпится попробовать без питонинга? Уже есть имплементейшен для ComfyUI:
https://github.com/ZHO-ZHO-ZHO/ComfyUI-SegMoE