ℹ️ Вторая работа — ужас фоторедакторов: Emu Edit, многозадачная модель для редактирования изображений, задающая новый уровень развития технологии. Может делать редактирование на основе выделенного региона и без него (просто по текстовому запросу), а может делать детекцию и сегментацию — и всё это сформулировано при обучении как генеративные задачи 😱

🤔 Интересно, что для генерации «инструкций» на редактирование при тренировке использутся LLAMA-2-70B (промпт с примерами см. в статье). Похоже, уже можно считать, что мы вошли в эру тренировки моделей на синтетических данных.

😨 И видов сгенерированных задач ну просто куча: добавление и удаление предметов, замена текстуры, смена фона, исправление текста, выделение объектов, и список можно ещё прододжать!

🕸

Официальный сайт (тут больше демок)

✍️

Статья (pdf)

😎 И отдельно выделю, что был опубликован тестовый датасет для замера точности и качества редактирований — там же можно посмотреть формат описания задач. Он собран уже вручную людьми, а не сгенерирован машиной.

В общем, ждём в инстаграме!

Источник: Сиолошная

2023-11-16 17:52:25