Платформа Flexberry позволяет реализовывать решения для разнообразных бизнес-требований. Распознавание документов – одна из полезных и интересных возможностей, поэтому специалистами «Новой платформы» разработан пример, демонстрирующий возможности не только распознавания документов формата pdf, но и поиск необходимой информации в полученных текстах. Пример представляет собой систему, состоящую из следующих сервисов:
1) Стандартное приложение, основанное на применении фреймфорка Ember, odataBackend и базы данных.
2) Сервис распознавания на основе Tesseract.
3) Сервис поиска на основе ElasticSearch.
В приложении у пользователя есть возможность загрузить отсканированный pdf, который конвертируется в png с помощью утилиты ImageMagic и распознается с помощью инструмента Tesseract. Обработка текста происходит по технологии OCR.
Полученный текст загружается в базу данных ElasticSearch, благодаря чему обеспечивается возможность быстрого поиска по содержимому в специальной форме ember-приложения. В итоге пользователю выводится список найденных документов с возможностью просмотреть страницу, где был найден искомый текст (по клику на наименовании). Для отображения pdf используется пакет ember-pdf-js, основанный на pdfJS.
Познакомиться с возможностями разработанного примера можно, запустив его в Docker в соответствии с инструкцией.