Выпуск веб-приложения для работы с отсканированными документами paperless-ngx 1.8.0

Доступен новый выпуск Paperless-ngx, веб-приложения для работы с документами, которое преобразует бумажные документы в электронные, доступные для полнотекстового поиска, скачивания и хранения онлайн. Код написан на языке Python с использованием фреймворка Django и распространяется под лицензией GPLv3. Для ознакомления с возможностями системы подготовлен демонстрационный сайт demo.paperless-ngx.com (логин/пароль — demo/demo).

Paperless-ngx является ответвлением от проекта paperless-ng, который, в свою очередь, ответвился от оригинального проекта paperlsess (форки создавались для продолжения разработки после прекращения сопровождения прошлыми разработчиками). После загрузки отсканированного документа любым доступным способом (по FTP, через веб-интерфейс, через Android-приложение, по электронной почте через IMAP), программа осуществляет оптическое распознавание текста (OCR), используя движок Tesseract, далее в интерфейсе доступно тегирование (в том числе автоматическое с использованием машинного обучения), полнотекстовый поиск, а также загрузка версии документа в формате PDF/A или в форматах офисных пакетов.

В новой версии:

Скрипты пре/пост обработки используют переменные окружения вместо аргументов командной строки.
Миниатюры в веб-интерфейсе переведены в формат WebP вместо PNG.
Настройки веб-интерфейса сохраняются в базе данных.
При смене языка документа в интерфейсе появляется подсказка о необходимости перезагрузить страницу.
При возникновении ошибки связи с Redis показывается более подробная информация.
В веб-интерфейсе добавлена возможность просмотра очереди документов на обработку.

Источник: http://www.opennet.ru/opennews/art.shtml?num=57575

AllUNIX.ru — Всероссийский портал о UNIX-системах

новости из мира unix и unix-like