ViT классификатор изображений чеков и квитанций

Классифицирует изображения, определяя, содержат ли они чеки/квитанции или другие документы.

0/5

0 скачиваний

0 отзывов

ViT классификатор изображений чеков и квитанций

Подходит для задач:

Image Classification

Сферы:

Розничная торговля

Библиотеки:

Transformers

Описание

Краткое описание работы модели

Эта модель является доработанной версией google/vit-base-patch16-224-in21k, специально настроенной для бинарной классификации изображений на предмет содержания «чека/квитанции» (ticket) или «не чека/не квитанции» (no_ticket). Модель обучена на различных наборах данных, включающих отсканированные, сфотографированные (в том числе с мобильных устройств) и сделанные камерой изображения, как цветные, так и монохромные. Под «чеком» здесь подразумеваются также квитанции и подобные им расчетные документы.

Модель достигла следующих результатов на оценочном наборе данных:

Потери (Loss): 0.0116
F1-мера: 0.9991

Применение модели

Используйте эту модель для классификации изображений, чтобы определить, являются ли они чеками/квитанциями или чем-то иным. В случае классификации изображения как «чек/квитанция», вы можете использовать такие методы, как извлечение мультимодальной информации или визуальное распознавание именованных сущностей, для извлечения информации о позициях чека, суммах, итоговой стоимости и т.д. Для получения более подробной информации по этому вопросу можно ознакомиться с датасетом Cord.

Обучение и данные

Модель была обучена с использованием комплексного подхода, задействующего несколько наборов данных. В качестве положительного класса («чек/квитанция») использовались следующие данные:

Набор данных Cord
Набор данных с Free Receipt Images OCR & Machine Learning dataset

Для отрицательного класса («не чек/не квитанция») были задействованы подмножества следующих наборов данных:

RVL-CDIP
Visual-Genome

Процедура обучения включала загрузку данных с различным распределением для положительного и отрицательного классов, последующую нормализацию и изменение размера изображений для соответствия входным требованиям ViT. Для максимизации F1-меры проводились различные эксперименты с изменением распределения данных и гиперпараметров. Использовались следующие гиперпараметры:

Скорость обучения: 0.0002
Размер обучающего пакета: 16
Размер оценочного пакета: 8
Начальное значение для генератора случайных чисел (seed): 42
Оптимизатор: Adam с бета-коэффициентами (0.9, 0.999) и эпсилон=1e-08
Тип планировщика скорости обучения (lr_scheduler_type): linear
Количество эпох: 1
Обучение со смешанной точностью (mixed_precision_training): Native AMP

Результаты обучения представлены в таблице:


Потери при обучении	Эпоха	Шаг	Потери при валидации	F1
0.0026	0.28	500	0.0187	0.9982
0.0186	0.56	1000	0.0116	0.9991
0.0006	0.84	1500	0.0044	0.9997

Ссылки

jjmcarrascosa/vit_receipts_classifier

Предпросмотр файлов

В этой модели нет файлов для предпросмотра.

Просмотры

Скачивания

Кейсы внедрения

Загрузка...

Загрузка комментариев...

Обсудите модель

с топами рынка в бизнес чате

Есть вопросы по модели?

Написать автору

Оценка

Детали модели

Автор: Qubu Team

Объем: 4.8 ГБ

Комментарии: 0

Просмотры: 6

Скачивания: 0

Лицензия: MIT

Дата добавления: 27.04.2026

Автор

Qubu Team

Команда

Профиль команды