ℹ️ Вторая работа — ужас фоторедакторов: Emu Edit, многозадачная модель для редактирования изображений, задающая новый уровень развития технологии. Может делать редактирование на основе выделенного региона и без него (просто по текстовому запросу), а может делать детекцию и сегментацию — и всё это сформулировано при обучении как генеративные задачи 😱
🤔 Интересно, что для генерации «инструкций» на редактирование при тренировке использутся LLAMA-2-70B (промпт с примерами см. в статье). Похоже, уже можно считать, что мы вошли в эру тренировки моделей на синтетических данных.
😨 И видов сгенерированных задач ну просто куча: добавление и удаление предметов, замена текстуры, смена фона, исправление текста, выделение объектов, и список можно ещё прододжать!
😎 И отдельно выделю, что был опубликован тестовый датасет для замера точности и качества редактирований — там же можно посмотреть формат описания задач. Он собран уже вручную людьми, а не сгенерирован машиной.