Что у нас по SOTA self-supervised сетям для...
Что у нас по SOTA self-supervised сетям для зрения?
Зарелизили DINOv2.
Это трансформер для картинок, который натренирован абсолютно без лейблов.
Идея позаимствована из тренировки языковых моделей, где случайным образом удаляется слово из предложения и нейронка должна предсказать, что было пропущено. В картинках же закрашивают случайный патч черным и просят сеть предсказать, что там было.
В чем прелесть?
В том, что DINOv2 натренировали на огромном сбалансированном датасете (142M изображения) и выложили код и веса на гитхаб. То есть теперь, когда решаете свою задачу, нужно начинать не с весов, натренированных на ImageNet, а с весов DINOv2, которые более универсальные и лучше подходят под новые задачи. Так же авторы показали, что фичи DINOv2 лучше чем фичи OpenCLIP, который тренировался соотносить размеченные пары картинок и их текстовых описаний.
Натренили ViT трансформеры разного размера: дистиллированный ViT-L/14 с 300М параметров перформит почти как ViT-g/14 с 1.1B параметров!
Блог
Код
Демо
@ai_newz
Зарелизили DINOv2.
Это трансформер для картинок, который натренирован абсолютно без лейблов.
Идея позаимствована из тренировки языковых моделей, где случайным образом удаляется слово из предложения и нейронка должна предсказать, что было пропущено. В картинках же закрашивают случайный патч черным и просят сеть предсказать, что там было.
В чем прелесть?
В том, что DINOv2 натренировали на огромном сбалансированном датасете (142M изображения) и выложили код и веса на гитхаб. То есть теперь, когда решаете свою задачу, нужно начинать не с весов, натренированных на ImageNet, а с весов DINOv2, которые более универсальные и лучше подходят под новые задачи. Так же авторы показали, что фичи DINOv2 лучше чем фичи OpenCLIP, который тренировался соотносить размеченные пары картинок и их текстовых описаний.
Натренили ViT трансформеры разного размера: дистиллированный ViT-L/14 с 300М параметров перформит почти как ViT-g/14 с 1.1B параметров!
Блог
Код
Демо
@ai_newz
Источник: эйай ньюз
2023-04-26 16:20:14