ViT классификатор изображений чеков и квитанций

Классифицирует изображения, определяя, содержат ли они чеки/квитанции или другие документы.

0/5
0 скачиваний
0 отзывов
ViT классификатор изображений чеков и квитанций
Подходит для задач:
Image Classification
Сферы:
Розничная торговля
Библиотеки:
Transformers

Описание

Краткое описание работы модели

Эта модель является доработанной версией google/vit-base-patch16-224-in21k, специально настроенной для бинарной классификации изображений на предмет содержания «чека/квитанции» (ticket) или «не чека/не квитанции» (no_ticket). Модель обучена на различных наборах данных, включающих отсканированные, сфотографированные (в том числе с мобильных устройств) и сделанные камерой изображения, как цветные, так и монохромные. Под «чеком» здесь подразумеваются также квитанции и подобные им расчетные документы.

Модель достигла следующих результатов на оценочном наборе данных:

  • Потери (Loss): 0.0116
  • F1-мера: 0.9991

Применение модели

Используйте эту модель для классификации изображений, чтобы определить, являются ли они чеками/квитанциями или чем-то иным. В случае классификации изображения как «чек/квитанция», вы можете использовать такие методы, как извлечение мультимодальной информации или визуальное распознавание именованных сущностей, для извлечения информации о позициях чека, суммах, итоговой стоимости и т.д. Для получения более подробной информации по этому вопросу можно ознакомиться с датасетом Cord.

Обучение и данные

Модель была обучена с использованием комплексного подхода, задействующего несколько наборов данных. В качестве положительного класса («чек/квитанция») использовались следующие данные:

  • Набор данных Cord
  • Набор данных с Free Receipt Images OCR & Machine Learning dataset

Для отрицательного класса («не чек/не квитанция») были задействованы подмножества следующих наборов данных:

  • RVL-CDIP
  • Visual-Genome

Процедура обучения включала загрузку данных с различным распределением для положительного и отрицательного классов, последующую нормализацию и изменение размера изображений для соответствия входным требованиям ViT. Для максимизации F1-меры проводились различные эксперименты с изменением распределения данных и гиперпараметров. Использовались следующие гиперпараметры:

  • Скорость обучения: 0.0002
  • Размер обучающего пакета: 16
  • Размер оценочного пакета: 8
  • Начальное значение для генератора случайных чисел (seed): 42
  • Оптимизатор: Adam с бета-коэффициентами (0.9, 0.999) и эпсилон=1e-08
  • Тип планировщика скорости обучения (lr_scheduler_type): linear
  • Количество эпох: 1
  • Обучение со смешанной точностью (mixed_precision_training): Native AMP

Результаты обучения представлены в таблице:

Потери при обучении Эпоха Шаг Потери при валидации F1
0.0026 0.28 500 0.0187 0.9982
0.0186 0.56 1000 0.0116 0.9991
0.0006 0.84 1500 0.0044 0.9997

Ссылки

jjmcarrascosa/vit_receipts_classifier

Предпросмотр файлов

В этой модели нет файлов для предпросмотра.

Просмотры

Скачивания

Похожие модели

Кейсы внедрения

Обсудите модель
с топами рынка в бизнес чате
Есть вопросы по модели?
Написать автору

Оценка

Детали модели

Автор: Qubu Team
Объем: 4.8 ГБ
Комментарии: 0
Просмотры: 6
Скачивания: 0
Лицензия: MIT
Дата добавления: 27.04.2026

Автор

Qubu Team

Qubu Team

Команда

Профиль команды
Загрузка...
Загрузка комментариев...