🔥Scalable Diffusion Models with Transformers (DiT)

Как вы заметили, текущие SOTA text-2-image модели вроде DALLE-2, и Stable Diffusion используют допотопную архитектуру U-Net в качестве бэкбона для процесса диффузии.

Один интерн из Meta AI покумекал и решил прикрутить в Latent Diffusion трансформер вместо морально устаревшего U-Neta (идея очевидная, да?). С небольшими трюками, позволяющими эффективно пробрасывать conditioning сигнал во все слои трансформера, мы получем SOTA в условной генерации изображений.

Из позитивных свойств, чем жирнее трансформер (количество слоев и их глубина) в диффузии, тем лучше качество генерации. Нам ещё предстоит понять, где этот предел в размере модели.

Архитектура модели довольна проста в реализации и занимает всего 300 строк кода.

На анимации – блуждание по латентному пространству модели.

❱❱ Код
❱❱ Сайт проекта
❤️ Поиграться в Коллабе

@ai_newz

Источник: эйай ньюз

2022-12-24 18:44:20