Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
Meta AI поделились статьёй, в которой описывают процедуру тренировки модели для генерации стикеров и изображений в своих сервисах. Ключевой вывод исследования заключается в том, что короткое дообучение в конце на маленьком наборе (2000 картинок) чрезвычайно привлекательных изображений значительно улучшает качество генерации.
Более конкретно:
1) Предварительно обучается модель диффузии на 1,1 миллиарде пар "изображение-текст" из внтуреннего датасета. Тут никаких особых прорывов и инсайдов нет, достаточно стандартно. Используется U-Net с 2,8B параметров. В качестве текстовых энкодеров используется две модели — CLIP ViT-L и T5-XXL. Целевое разрешение генерации - 1024x1024;
2) С помощью разных фильтров из более чем миллиарда примеров отсеивается 200 тысяч. Используются и простые классификаторы, определяющие, насколько эстетична картинка, и фильтрация треша, и OCR (чтобы не было картинок с большим количеством текста), и отсечение по разрешению и пропорции. Затем фильтруют по популярности/лайкам (удобно, когда ты Facebook!);
3) Далее эти 200k картинок отсматривают сначала генералисты (люди, которые в целом понимают разметку данных) и отбирают 20 тысяч. Упор — на то, чтобы в целом плохие фото убрать, если вдруг эвристика с шага 2 не справились;
4) Затем в дело вступают специалисты, которые хорошо разбираются в принципах фотографии. Их задача — фильтровать и отбирать изображения высочайшего эстетического качества, снижая таким образом размер выборки до 2000 пар "изображение-текст". Среди прочего, их просят обращать внимание на: композицию, свет, цвета и контрасты, тема и предыстория;
5) После этого вручную составляются высококачественные текстовые аннотации для этого маленького набора;
6) Иииии..всё, теперь на полученной маленькой выборке модель учится 15000 шагов с BS=64 (то есть достаточно мало по меркам больших генеративных моделей). При этом она, если судить по валидационному лоссу, переобучается, однако оценки живых людей показывают, что это не так. С языковыми моделями тоже происходит подобная история, как нибудь про это напишу;
Таким многоступенчатым образом и получается заточенная на high quality генерацию!
Meta AI поделились статьёй, в которой описывают процедуру тренировки модели для генерации стикеров и изображений в своих сервисах. Ключевой вывод исследования заключается в том, что короткое дообучение в конце на маленьком наборе (2000 картинок) чрезвычайно привлекательных изображений значительно улучшает качество генерации.
Более конкретно:
1) Предварительно обучается модель диффузии на 1,1 миллиарде пар "изображение-текст" из внтуреннего датасета. Тут никаких особых прорывов и инсайдов нет, достаточно стандартно. Используется U-Net с 2,8B параметров. В качестве текстовых энкодеров используется две модели — CLIP ViT-L и T5-XXL. Целевое разрешение генерации - 1024x1024;
2) С помощью разных фильтров из более чем миллиарда примеров отсеивается 200 тысяч. Используются и простые классификаторы, определяющие, насколько эстетична картинка, и фильтрация треша, и OCR (чтобы не было картинок с большим количеством текста), и отсечение по разрешению и пропорции. Затем фильтруют по популярности/лайкам (удобно, когда ты Facebook!);
3) Далее эти 200k картинок отсматривают сначала генералисты (люди, которые в целом понимают разметку данных) и отбирают 20 тысяч. Упор — на то, чтобы в целом плохие фото убрать, если вдруг эвристика с шага 2 не справились;
4) Затем в дело вступают специалисты, которые хорошо разбираются в принципах фотографии. Их задача — фильтровать и отбирать изображения высочайшего эстетического качества, снижая таким образом размер выборки до 2000 пар "изображение-текст". Среди прочего, их просят обращать внимание на: композицию, свет, цвета и контрасты, тема и предыстория;
5) После этого вручную составляются высококачественные текстовые аннотации для этого маленького набора;
6) Иииии..всё, теперь на полученной маленькой выборке модель учится 15000 шагов с BS=64 (то есть достаточно мало по меркам больших генеративных моделей). При этом она, если судить по валидационному лоссу, переобучается, однако оценки живых людей показывают, что это не так. С языковыми моделями тоже происходит подобная история, как нибудь про это напишу;
Таким многоступенчатым образом и получается заточенная на high quality генерацию!
Источник: Сиолошная
2023-09-28 07:48:25