🔥Scaling Language-Image Pre-training via Masking

Короче, челы из FAIR улучшили CLIP (сеть для нахождения похожести между текстом и картинками) и назвали его FLIP.

Что сделали:
1. Берут не всю картинку, а дропают 50% или 75% патчей, соответственно уменьшая количество токенов у image-encoder. Да еще и робастности добавляется (типа дропаут же).
2. Тренят 32 эпохи (это стандарт на LAION-400M), а затем файнтюнят 0.32 эпохи на полных картинках без дропанья патчей. Это докидывет еще 1.3% к перфу.

В итоге получаем перформанс как у CLIP, только в несколько раз быстрее, из-за дропаута патчей.

Элегантно и просто, вот и вам и принятая статья на CVPR 2023.

Статья

@ai_newz

Источник: эйай ньюз

2023-03-03 14:31:34