ViT классификатор изображений чеков и квитанций
Классифицирует изображения, определяя, содержат ли они чеки/квитанции или другие документы.

Описание
Краткое описание работы модели
Эта модель является доработанной версией google/vit-base-patch16-224-in21k, специально настроенной для бинарной классификации изображений на предмет содержания «чека/квитанции» (ticket) или «не чека/не квитанции» (no_ticket). Модель обучена на различных наборах данных, включающих отсканированные, сфотографированные (в том числе с мобильных устройств) и сделанные камерой изображения, как цветные, так и монохромные. Под «чеком» здесь подразумеваются также квитанции и подобные им расчетные документы.
Модель достигла следующих результатов на оценочном наборе данных:
- Потери (Loss): 0.0116
- F1-мера: 0.9991
Применение модели
Используйте эту модель для классификации изображений, чтобы определить, являются ли они чеками/квитанциями или чем-то иным. В случае классификации изображения как «чек/квитанция», вы можете использовать такие методы, как извлечение мультимодальной информации или визуальное распознавание именованных сущностей, для извлечения информации о позициях чека, суммах, итоговой стоимости и т.д. Для получения более подробной информации по этому вопросу можно ознакомиться с датасетом Cord.
Обучение и данные
Модель была обучена с использованием комплексного подхода, задействующего несколько наборов данных. В качестве положительного класса («чек/квитанция») использовались следующие данные:
- Набор данных Cord
- Набор данных с Free Receipt Images OCR & Machine Learning dataset
Для отрицательного класса («не чек/не квитанция») были задействованы подмножества следующих наборов данных:
- RVL-CDIP
- Visual-Genome
Процедура обучения включала загрузку данных с различным распределением для положительного и отрицательного классов, последующую нормализацию и изменение размера изображений для соответствия входным требованиям ViT. Для максимизации F1-меры проводились различные эксперименты с изменением распределения данных и гиперпараметров. Использовались следующие гиперпараметры:
- Скорость обучения: 0.0002
- Размер обучающего пакета: 16
- Размер оценочного пакета: 8
- Начальное значение для генератора случайных чисел (seed): 42
- Оптимизатор: Adam с бета-коэффициентами (0.9, 0.999) и эпсилон=1e-08
- Тип планировщика скорости обучения (lr_scheduler_type): linear
- Количество эпох: 1
- Обучение со смешанной точностью (mixed_precision_training): Native AMP
Результаты обучения представлены в таблице:
Ссылки
jjmcarrascosa/vit_receipts_classifierПредпросмотр файлов
В этой модели нет файлов для предпросмотра.