Primeiro vamos começar pela instalação do Tesseract OCR. Abra o terminal e digite o seguinte comando:
sudo apt-get install tesseract-ocr tesseract-ocr-por
Também precisamos instalar a biblioteca Pillow e suas dependências. Ela será necessária para carregar a imagem para nosso script:
sudo apt-get install python-dev python3-dev build-essential liblcms1-dev zlib1g-dev libtiff4-dev libjpeg8-dev libfreetype6-dev libwebp-dev pip install Pillow
sudo apt-get install python-dev python3-dev build-essential liblcms2-dev zlib1g-dev libtiff5-dev libjpeg8-dev libfreetype6-dev libwebp-dev pip install Pillow
Agora partiremos para a instalação do wrapper que irá permitir a utilização do Tesseract através do python:
pip install pytesseract
pip install pdf2image