Beyond Surface Statistics:. Scene Representations in a Latent...

Beyond Surface Statistics:
Scene Representations in a Latent Diffusion Model

Вышла интересная статья, где показали, что Latent Diffusion (LDM) выучивает информацию о глубине сцены в своих latent фичах.

Проверили очень просто - взяли фичи из промежуточных self-attenion слоев у Stable Diffusion v1 и натренили линейную регрессию восстанавливать глубину и saliency (это по сути бинарная сегментация). По одному лин-регу на каждый слой и на каждый шаг солвера t.

Итак, мы видим, что уже после пяти шагов солвера, фичи содержат довольно много инфы о глубине объектов, в то время как сам объект еще не разобрать.

А самая точная глубина содержится в первом self-attention слое декодера Unet.

Еще авторы показали, что можно отредактировать фичи, которые соответствуют инфе о глубине так, что передвинется объект на итоговой генерации.

Cтатья подтвердила интуицию о том, что LDM учит неявное 3D представление об объектах, иначе она бы не смогла генерить такие качественные изображения и эффекты вроде блюра.

@ai_newz

Источник: эйай ньюз

2023-09-15 18:29:01