Распознавание текста на основе Tesseract и ElasticSearch

Платформа Flexberry позволяет реализовывать решения для разнообразных бизнес-требований. Распознавание документов – одна из полезных и интересных возможностей, поэтому специалистами «Новой платформы» разработан пример, демонстрирующий возможности не только распознавания документов формата pdf, но и поиск необходимой информации в полученных текстах. Пример представляет собой систему, состоящую из следующих сервисов:

1) Стандартное приложение, основанное на применении фреймфорка Ember, odataBackend и базы данных.

2) Сервис распознавания на основе Tesseract.

3) Сервис поиска на основе ElasticSearch.

В приложении у пользователя есть возможность загрузить отсканированный pdf, который конвертируется в png с помощью утилиты ImageMagic и распознается с помощью инструмента Tesseract. Обработка текста происходит по технологии OCR.

Полученный текст загружается в базу данных ElasticSearch, благодаря чему обеспечивается возможность быстрого поиска по содержимому в специальной форме ember-приложения. В итоге пользователю выводится список найденных документов с возможностью просмотреть страницу, где был найден искомый текст (по клику на наименовании). Для отображения pdf используется пакет ember-pdf-js, основанный на pdfJS.

Познакомиться с возможностями разработанного примера можно, запустив его в Docker в соответствии с инструкцией.

Поделиться в: ВКонтакте, Twitter, Facebook.