В рамках проекта Manuscript OCR наша команда создала серию специализированных датасетов для распознавания исторических документов XVIII–XIX веков. Основой коллекции стали губернаторские отчёты Енисейской губернии, содержащие рукописные и печатные тексты в дореформенной орфографии. Основная задача проекта — развитие OCR/HTR-технологий для исторических архивов, а также создание открытой исследовательской базы для обучения и тестирования моделей компьютерного зрения и обработки текста. Проблема Сов…