Este proyecto es un programa en Python que convierte archivos PDF compuestos por imágenes o imágenes individuales en un PDF con texto plano.
- 📄 Convierte PDFs compuestos por imágenes en un PDF con texto plano.
- 🖼️ Permite convertir imágenes individuales en un PDF con texto.
- Implementación de límite de solicitudes: Se implementó un límite de solicitudes por IP para prevenir abusos. Consulta el commit para más detalles sobre la implementación.
- Python 3.x
- Bibliotecas Python:(ver requisitos detallados)
- Tesseract OCR
- Poppler - Página Oficial
- .JPG
- .JPEG
- .PNG
- Clona el repositorio o descarga el código fuente.
git clone https://github.com/Nicolastolinii/Img_to_Text.git
cd Img_to_Text
pip install -r requirements.txt
python main.py "ruta a la imagen o PDF"
Además de la ejecución desde la línea de comandos, puedes utilizar la interfaz de usuario proporcionada mediante una API . Sigue estos pasos:
- Ejecuta la API.(en el directorio 'img_to_text/api')
python app.py
Esto iniciará la aplicación Flask en http://localhost:5000.
- Accede a la Interfaz de Usuario. Abre "index.html" que se encuentra en la carpeta "api" Aquí encontrarás una interfaz amigable que admite la funcionalidad de arrastrar y soltar para procesar imágenes y PDFs.
Deje configurado un Dockerfile para levantar un Docker con el proyecto
docker build -t nombre_de_tu_imagen .
docker run --rm --name "nombre del contenedor" nombre_de_tu_imagen
preprocess_image(img)
Preprocesa una imagen antes de la extracción de texto. Realiza los siguientes pasos:
- Convierte la imagen a formato BGR.
- Ajusta el tamaño de la imagen (aumenta en un factor de 1.5).
- Aplica un desenfoque mediano a la imagen.
img_string(img)
Realiza la extracción de texto de una imagen preprocesada utilizando la biblioteca Tesseract.
#Configuración del Entorno: Tesseract OCR y Poppler
Asegúrate de tener Tesseract OCR instalado en tu sistema y configurado correctamente. Puedes encontrar más información sobre la instalacion y configuración en la la documentación oficial de Tesseract OCR. Instalación en sistemas basados en Debian/Ubuntu:
sudo apt-get update
sudo apt-get install tesseract-ocr
Instalación en sistemas basados en Windows: Descarga el instalador desde la página de descargas de Tesseract OCR y sigue las instrucciones de instalación.
En la sección "Downloads" o "Descargas", encontrarás enlaces a las versiones más recientes y la documentación asociada. Allí podrás obtener la versión específica de Poppler que necesitas para tu sistema. Si estás utilizando un sistema basado en Linux, es probable que puedas instalar Poppler directamente desde los repositorios de tu distribución.
sudo apt-get update
sudo apt-get install poppler-utils
Para sistemas Windows, puedes descargar los binarios desde la página oficial.