🔥Scaling Language-Image Pre-training via Masking
Короче, челы из FAIR улучшили CLIP (сеть для нахождения похожести между текстом и картинками) и назвали его FLIP.
Что сделали:
1. Берут не всю картинку, а дропают 50% или 75% патчей, соответственно уменьшая количество токенов у image-encoder. Да еще и робастности добавляется (типа дропаут же).
2. Тренят 32 эпохи (это стандарт на LAION-400M), а затем файнтюнят 0.32 эпохи на полных картинках без дропанья патчей. Это докидывет еще 1.3% к перфу.
В итоге получаем перформанс как у CLIP, только в несколько раз быстрее, из-за дропаута патчей.
Элегантно и просто, вот и вам и принятая статья на CVPR 2023.
Статья
@ai_newz
Короче, челы из FAIR улучшили CLIP (сеть для нахождения похожести между текстом и картинками) и назвали его FLIP.
Что сделали:
1. Берут не всю картинку, а дропают 50% или 75% патчей, соответственно уменьшая количество токенов у image-encoder. Да еще и робастности добавляется (типа дропаут же).
2. Тренят 32 эпохи (это стандарт на LAION-400M), а затем файнтюнят 0.32 эпохи на полных картинках без дропанья патчей. Это докидывет еще 1.3% к перфу.
В итоге получаем перформанс как у CLIP, только в несколько раз быстрее, из-за дропаута патчей.
Элегантно и просто, вот и вам и принятая статья на CVPR 2023.
Статья
@ai_newz
Источник: эйай ньюз
2023-03-03 14:31:34