git clone https://github.com/bauarm/books-parser.gitcd ./books-parser && virtualenv venv && source venv/bin/activatepip install -r requirement.txtpython pdfSpliter.pypython pdfToImg.pyДля работы библиотеки Wand необходима программа ImageMagick . На Ubuntu ImageMagick обычно установленна изначально. Возможны проблемы с настройками безопасности. Необходима правка файла /etc/ImageMagick-6/policy.xml
vi /etc/ImageMagick-6/policy.xmlДанная строка
<policy domain="coder" rights="none" pattern="PDF" />Заменяется этой
<policy domain="coder" rights="read|write" pattern="PDF" />python pngToTxt.pyДля работы скрипта на машине должен быть установлен Tesseract OCR
tesseract --versionЕсли не установленна
sudo apt install tesseract-ocrУстановка русского языкового пакета
sudo apt-get install tesseract-ocr-rusТак же для работы скрипта необходима программа ImageMagick . На Ubuntu ImageMagick обычно установленна изначально.
convert -versionЕсли не установленна. Команда для установки imagemagick
sudo apt install imagemagick