Нейролента - подборка новостей о нейронных сетях, ChatGPT

Про обобщение

Про обобщение DINOv2 на другие задачи и трюки обучения

DINOv2 тренировалась на сбалансированном large-scale датасете, да ещё и без лейблов, то есть информация, на которой обучают сеть, не ограничена качеством текстовых аннотациями.

Авторы тут еще применили серию SOTA трюков для тренировки self-supervised моделей на картинках:
— Обучали одновременно и на целых изображениях и на патчах, чтобы учить сеть замечать более мелкие детали на изображениях
— Варьировали разрешение картинок во время тренировки
— Использовали регуляризатор, который максимизирует энтропию фичей внутри батча
— и несколько других трюков, про которые можно почитать в статье.

В итоге фичи DINOv2 хорошо показывают себя на ряде новых задач, например на предсказании глубины, сегментации и матчинге точек на парах изображений. Причем без всякого файнтюнинга. Просто берутся замороженные фичи DINOv2 и поверх них тренируется один линейный слой, которые решает новую задачу.

Конечно, можно и файнтюнить, если у вас данных достаточно.

@ai_newz