Нейролента - подборка новостей о нейронных сетях, ChatGPT

Дополнительно обучили ResNet-18 на трёх случайных сидах, и...

Дополнительно обучили ResNet-18 на трёх случайных сидах, и посмотрели есть ли паттерны в параметрах. Какие-то вроде есть (по мне так картинки вообще не наглядны, я не понял какие именно паттерны они там увидели). А если они есть, то видимо их и выучивает предложенный подход.

Поисследовали разницу между оригинальными и сгенерированными моделями чтобы понять, 1) не запоминает ли p-diff тренировочные данные, и 2) есть ли какая-то разница между параметрами, получаемыми при файнтюнинге или добавлении шума и новыми сгенерированными. Похожесть моделей оценивали по Intersection over Union (IoU) для их неправильных предсказаний. Такого способа определения похожести моделей я раньше, кажется, не встречал (но может я что-то пропустил и это давно уже общее место?)

Разница между сгенерированными моделями получилась заметно больше, чем между оригинальными. И даже максимальная похожесть между сгенерёнными и оригинальными заметно ниже, чем между оригинальными. То есть метод генерит какие-то новые параметры. Файнтюненные и зашумлённые версии моделей кучкуются в каких-то своих узких кластерах, метод с диффузионкой генерит гораздо разнообразнее (и подчас с более высоким качеством). t-SNE от латентных представлений p-diff сильно отличается от оригинальных и шумных версий моделей (про шумные, наверное логично, что они там же где оригинальные, мы же обучали на устойчивость к шуму).

В целом интересная тема. Действительно, почему бы не появиться диффузионному оптимизатору? Да и для инициализации тоже может быть тема (если тем самым, например, на пару эпох можно всё ускорить?). Ждём развития!