RoPE ViT классификатор изображений Places365
Модель RoPE ViT для классификации изображений на 365 категорий мест.

Описание
Обзор модели
Данная модель представляет собой классификатор изображений RoPE ViT, специально разработанный для распознавания категорий мест. Она прошла двухэтапный процесс обучения: сначала предварительное обучение с использованием CAPI, а затем дообучение на обширном наборе данных Places365.
Детали модели
Тип модели: Backbone для классификации и обнаружения изображений
Параметры (М): 86.0
Размер входного изображения: 224 x 224
Набор данных: Places365 (365 классов)
Производительность
Точность Top-1 при 224x224: 58.42%
Как это работает: Применение
Классификация изображений
Используйте следующий код Python для классификации изображений:
Получение эмбеддингов изображений
Чтобы получить эмбеддинги изображений, используйте следующий пример:
Карта признаков для обнаружения
Получение карты признаков для задач обнаружения:
Публикации
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale: https://arxiv.org/abs/2010.11929
Rotary Position Embedding for Vision Transformer: https://arxiv.org/abs/2403.13298
Vision Transformers Need Registers: https://arxiv.org/abs/2309.16588
Cluster and Predict Latent Patches for Improved Masked Image Modeling: https://arxiv.org/abs/2502.08769
Ссылки
birder-project/rope_vit_reg4_b14_capi-places365
Ссылки
https://https://huggingface.co/birder-project/rope_vit_reg4_b14_capi-places365
Предпросмотр файлов
В этой модели нет файлов для предпросмотра.