Kandinsky 3
Kandinsky 3.1 - огненные апдейты!
Мне тут достался доступ к новой бете Кандинского, и это прям хорошо.
Там не только про скорость и качество (хотя разогнали его здорово), но и про новые фишки, которые сейчас появляются во всех генераторах картинок, типа LLM-промптинга и контролнетов.
По порядку:
Скорость:
Kandinsky 3.1 ускорили почти в 20 раз. Kandinsky 3.0 из диффузионной модели по факту превратился в GAN версии 3.1
Бьютификации запроса:
То, что всегда было в DALL·E 3, потом появилось в Fooocus и теперь внедряется везде, от SD3 до Midjourney. На вход языковой модели подаётся инструкция с просьбой улучшить запрос, и ответ LLM-модели подается на вход Kandinsky для генерации.
В качестве LLM использован neural-chat-7b-v3-1 от Интел со следующим системным промтом:
You are a prompt engineer. Your mission is to expand prompts written by user. You should provide the best prompt for text to image generation in English. \n### User:\n{prompt}\n### Assistant:\n
IP-Adapter:
Это когда мы даем на вход референсную картинку, а ИИ "читает" ее содержимое в виде внутреннего представления и использует ее как промпт.
Работает в любых режимах. От смешивания до вариации. Все как у людей.
Обучили и добавили ControlNet(!!) на основе HED detector. Midjourney снова нервничает, но виду не подает.
Подрулили inpainting
Kandinsky SuperRes
В новой версии Kandinsky 3.1 появилась возможность получать генерации изображений в разрешении 4K. Для этого была обучена диффузионная модель повышения разрешения KandiSuperRes. Код и веса на гитхабе.
Выпустили маленькие версии модели (1B) для слабого железа и дообучения.
Я пока генерю в секретном боте, но надеюсь скоро раскатают на всех. Мне пока очень нравится. И скорость и качество. Как я уже писал, я часто использую Кандинского на интерактивных лекциях именно из-за скорости и бесплатности. А тут еще новые фишки завезли..
Го тестировать, поделюсь ссылкой на бота, как смогу.
А для гиков, есть отличная подробнейшая статья вот тут:
https://habr.com/ru/companies/sberbank/articles/805337/
Картинок сейчас накидаю.
Мне тут достался доступ к новой бете Кандинского, и это прям хорошо.
Там не только про скорость и качество (хотя разогнали его здорово), но и про новые фишки, которые сейчас появляются во всех генераторах картинок, типа LLM-промптинга и контролнетов.
По порядку:
Скорость:
Kandinsky 3.1 ускорили почти в 20 раз. Kandinsky 3.0 из диффузионной модели по факту превратился в GAN версии 3.1
Бьютификации запроса:
То, что всегда было в DALL·E 3, потом появилось в Fooocus и теперь внедряется везде, от SD3 до Midjourney. На вход языковой модели подаётся инструкция с просьбой улучшить запрос, и ответ LLM-модели подается на вход Kandinsky для генерации.
В качестве LLM использован neural-chat-7b-v3-1 от Интел со следующим системным промтом:
You are a prompt engineer. Your mission is to expand prompts written by user. You should provide the best prompt for text to image generation in English. \n### User:\n{prompt}\n### Assistant:\n
IP-Adapter:
Это когда мы даем на вход референсную картинку, а ИИ "читает" ее содержимое в виде внутреннего представления и использует ее как промпт.
Работает в любых режимах. От смешивания до вариации. Все как у людей.
Обучили и добавили ControlNet(!!) на основе HED detector. Midjourney снова нервничает, но виду не подает.
Подрулили inpainting
Kandinsky SuperRes
В новой версии Kandinsky 3.1 появилась возможность получать генерации изображений в разрешении 4K. Для этого была обучена диффузионная модель повышения разрешения KandiSuperRes. Код и веса на гитхабе.
Выпустили маленькие версии модели (1B) для слабого железа и дообучения.
Я пока генерю в секретном боте, но надеюсь скоро раскатают на всех. Мне пока очень нравится. И скорость и качество. Как я уже писал, я часто использую Кандинского на интерактивных лекциях именно из-за скорости и бесплатности. А тут еще новые фишки завезли..
Го тестировать, поделюсь ссылкой на бота, как смогу.
А для гиков, есть отличная подробнейшая статья вот тут:
https://habr.com/ru/companies/sberbank/articles/805337/
Картинок сейчас накидаю.
Источник: Метаверсище и ИИще
2024-04-04 17:28:20