Segment Anything: Архитектура
Структура модели:
Тут все по классике - большие трансформеры и кросс-аттеншены.
1. Encoder изображений ViT-H, который обрабатывает каждое изображение и выдает фичи.
2. Encoder запросов, который обрабатывает входные промпты, такие как клики, боксы или текст.
3. Легкий декодер на основе трансформера, который предсказывает маски объектов на основе фичей изображения и запросов.
Размер модели:
Image Encoder содержит 632M параметров.
Encoder запросов и decoder масок содержат 4M параметров. Это позволяет посчитать фичи картинки на GPU (0.15s на A100), и гонять все остальное реалиайм на CPU прямо в браузере (50ms на запрос).
Модель обучалась в течение 3-5 дней на 256 GPU A100, что не особо много в современных реалиях, когда SD или GPT-4 обучаются месяцами.
Для мощной генерализации модель нужно обучать на огромном датасете. Так вот авторы собрали и опубликовали самый большой датасет по сегментации: 1 млрд масок на 11 млн изображений. Его и использовали для обучения.
@ai_newz
Структура модели:
Тут все по классике - большие трансформеры и кросс-аттеншены.
1. Encoder изображений ViT-H, который обрабатывает каждое изображение и выдает фичи.
2. Encoder запросов, который обрабатывает входные промпты, такие как клики, боксы или текст.
3. Легкий декодер на основе трансформера, который предсказывает маски объектов на основе фичей изображения и запросов.
Размер модели:
Image Encoder содержит 632M параметров.
Encoder запросов и decoder масок содержат 4M параметров. Это позволяет посчитать фичи картинки на GPU (0.15s на A100), и гонять все остальное реалиайм на CPU прямо в браузере (50ms на запрос).
Модель обучалась в течение 3-5 дней на 256 GPU A100, что не особо много в современных реалиях, когда SD или GPT-4 обучаются месяцами.
Для мощной генерализации модель нужно обучать на огромном датасете. Так вот авторы собрали и опубликовали самый большой датасет по сегментации: 1 млрд масок на 11 млн изображений. Его и использовали для обучения.
@ai_newz
Источник: эйай ньюз
2023-04-09 16:14:32