Что у нас по SOTA self-supervised сетям для...

Что у нас по SOTA self-supervised сетям для зрения?

Зарелизили DINOv2.

Это трансформер для картинок, который натренирован абсолютно без лейблов.

Идея позаимствована из тренировки языковых моделей, где случайным образом удаляется слово из предложения и нейронка должна предсказать, что было пропущено. В картинках же закрашивают случайный патч черным и просят сеть предсказать, что там было.

В чем прелесть?
В том, что DINOv2 натренировали на огромном сбалансированном датасете (142M изображения) и выложили код и веса на гитхаб. То есть теперь, когда решаете свою задачу, нужно начинать не с весов, натренированных на ImageNet, а с весов DINOv2, которые более универсальные и лучше подходят под новые задачи. Так же авторы показали, что фичи DINOv2 лучше чем фичи OpenCLIP, который тренировался соотносить размеченные пары картинок и их текстовых описаний.

Натренили ViT трансформеры разного размера: дистиллированный ViT-L/14 с 300М параметров перформит почти как ViT-g/14 с 1.1B параметров!

Блог
Код
Демо

@ai_newz

Источник: эйай ньюз

2023-04-26 16:20:14