Аннотация:Данная работа посвящена возможностям применения технологий машинного
обучения для распознавания печатных русских текстов XIX века. Был проведен обзор
этапов работы OCR-программы и способов их реализации, произведено сравнение
существующих программных продуктов – как свободно распространяемых, так и
проприетарных – на качестве распознавания дореволюционных текстов. Также была
обучена собственная модель при помощи платформы Tesseract, которая
продемонстрировала значительные улучшения в качестве по сравнению с исходной
моделью. Наконец, был создан графический интерфейс для выбора изображения с текстов
и наглядного сравнения исходной страницы с полученным распознанным текстом.