Все ближе к привычным слоям и многослойному композитингу
Все ближе к привычным слоям и многослойному композитингу.
Очень интересная работа от Микрософта.
Просто посмотрите видео, а я процитирую умные слова, упростив их насколько это возможно. Ключевая идея - ИИ сам разбирает сцену на слои. С которыми потом можно работать по отдельности. Мне не хватило информации о возможности экспорта в Фотошоп или Нюк.
Мы используем концепцию слоев из дизайна для гибкого манипулирования объектами с помощью различных операций. Ключевым моментом является преобразование задачи редактирования изображений с учетом пространственных особенностей в комбинацию двух подзадач: многослойной латентной декомпозиции и многослойного слияния латентных представлений.
Во-первых, мы сегментируем латентные представления исходных изображений на несколько слоев, которые включают несколько слоев объектов и один неполный слой фона, требующий надежного инпайтинга. Чтобы избежать дополнительных настроек, мы дополнительно изучаем возможность внутренней подрисовки в рамках механизма самовнимания. Мы представляем схему ротоскопа с вниманием, которая может распространять окружающую контекстную информацию в маскируемую область, смягчая ее влияние на области за пределами маски.
Во-вторых, мы предлагаем слияние латентов с помощью инструкций. Мы также вводим схему подавления артефактов в латентном пространстве, чтобы повысить качество инпайнтинга.
Наконец, мы показываем, что наш подход представляет собой единую структуру, которая поддерживает различные задачи точного редактирования изображений на более чем шести различных задачах редактирования.
https://design-edit.github.io/
Очень интересная работа от Микрософта.
Просто посмотрите видео, а я процитирую умные слова, упростив их насколько это возможно. Ключевая идея - ИИ сам разбирает сцену на слои. С которыми потом можно работать по отдельности. Мне не хватило информации о возможности экспорта в Фотошоп или Нюк.
Мы используем концепцию слоев из дизайна для гибкого манипулирования объектами с помощью различных операций. Ключевым моментом является преобразование задачи редактирования изображений с учетом пространственных особенностей в комбинацию двух подзадач: многослойной латентной декомпозиции и многослойного слияния латентных представлений.
Во-первых, мы сегментируем латентные представления исходных изображений на несколько слоев, которые включают несколько слоев объектов и один неполный слой фона, требующий надежного инпайтинга. Чтобы избежать дополнительных настроек, мы дополнительно изучаем возможность внутренней подрисовки в рамках механизма самовнимания. Мы представляем схему ротоскопа с вниманием, которая может распространять окружающую контекстную информацию в маскируемую область, смягчая ее влияние на области за пределами маски.
Во-вторых, мы предлагаем слияние латентов с помощью инструкций. Мы также вводим схему подавления артефактов в латентном пространстве, чтобы повысить качество инпайнтинга.
Наконец, мы показываем, что наш подход представляет собой единую структуру, которая поддерживает различные задачи точного редактирования изображений на более чем шести различных задачах редактирования.
https://design-edit.github.io/
Источник: Метаверсище и ИИще
2024-03-30 12:44:26