В

В статье про DALL-E 3 OpenAI указали, что помимо описанных изменений есть "many improvements over DALL-E 2 which are not covered in this document and could not be ablated for time and compute reasons".

Остальные части, опционально, будут выпускать по кусочкам, если посчитают нужным. Интересно, как и кто принимает решение? Ведущий исследователь направления, который стоит перед выбором, потратить ресурсы на написание статьи или на следующую работу?

Вот три дня назад вышла статья «Improved Techniques for Training Consistency Models», где рассказывается про улучшение Consistency Models, представленных OpenAI весной. Саммари оригинальной работы вкратце можно почитать тут у Артёма, или вот тут в двух постах чуть более детально. Общая идея в том, что процесс генерации изображения происходит пошагово, а время работы растёт линейно с количеством шагов. Хочется генерировать изображение в 2-3 шага, а не 50.

В новой статье показывают набор улучшений и исправлений ошибок, в том числе представлен новый процесс, где модель не дистиллируется из другой, а учится напрямую из данных. Также автоматическую функцию потерь LPIPS, основанную на работе другой нейросети, заменяют на Pseudo-Huber Loss.

P.S.: в статье напрямую не говорится, что именно этот метод использовался в DALL-E 3, но 1) статья вышла буквально через неделю после релиза 2) в самой статье по DALL-E 3 ссылаются на оригинальную весеннюю работу, мол, мы это используем, да, Consistency Models у нас есть.

Детального разбора статьи не будет, так как там много математики 😏

P.P.S: первый пост в канале, полностью написанный из VR очков! Сделал себе виртуальный стол с двумя экранами. Немного неудобно по двум причинам: не смог нормально протереть оптику, поэтому картинка частично замылена + я использую стороннее приложение, и в нём есть косяк, что минимальные движения руки могут начать двигать экраны. Вот бы добавить кнопку "замок", чтобы без её нажатия нельзя было взаимодействовать с дисплеем

🙂

Источник: Сиолошная

2023-10-25 13:56:54