Extracción de Texto de Imágenes y PDFs

Este proyecto es un script de Python que se utiliza para extraer texto de imágenes y documentos PDF, y luego buscar números de documentos (DNI, NIE, pasaporte) en el texto extraído. Este proyecto se realizó solo para procesar DNIs y NIEs de España, si es necesario el procesamiento de otro tipo de documento seguramente sea necesario ajustar los parámetros de busqueda de las cadenas para adecuarlo al formato del número de DNI.

Dependencias

El proyecto depende de las siguientes bibliotecas de Python:

OpenCV (cv2) Matplotlib NumPy PyTesseract os re pdf2image

Funciones

El script consta de varias funciones:

ocr(image): Esta función toma una imagen como entrada y devuelve el texto extraído de la imagen.

convertir_a_imagen(pdf): Esta función toma un archivo PDF como entrada y convierte la primera página en una imagen JPEG.

extraerTexto(img_color): Esta función toma una imagen en color como entrada y la convierte en escala de grises. Luego binariza la imagen, realiza una operación de apertura para eliminar el ruido, invierte la imagen, la amplía y extrae el texto.

buscar_dni(texto_completo): Esta función busca diferentes formatos de números de documentos en el texto extraído.

extrae_paths_imagenes(path): Esta función busca todos los archivos en un directorio dado. Si el archivo es un PDF, lo convierte en una imagen y agrega la ruta del archivo a una lista. Si el archivo es una imagen, simplemente agrega la ruta del archivo a la lista.

main(): Esta es la función principal que llama a las otras funciones y ejecuta el script.

Uso

Para usar este script, simplemente ejecute el archivo app.py en su terminal con Python. Asegúrese de tener todas las dependencias instaladas y de tener algunas imágenes o archivos PDF en el directorio 'imagenes_prueba' para que el script pueda procesarlos.

Contribuciones

Las contribuciones a este proyecto son bienvenidas. Si encuentra un error o tiene una sugerencia para una mejora, no dude en abrir un problema o enviar una solicitud de extracción.

Licencia

Este proyecto está licenciado bajo los términos de la licencia MIT.

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
.venv		.venv
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
app.py		app.py
haarcascade_frontalface_default.xml		haarcascade_frontalface_default.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Extracción de Texto de Imágenes y PDFs

Dependencias

Funciones

Uso

Contribuciones

Licencia

About

Releases

Packages

Languages

License

slam000/extract_dni_from_img

Folders and files

Latest commit

History

Repository files navigation

Extracción de Texto de Imágenes y PDFs

Dependencias

Funciones

Uso

Contribuciones

Licencia

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages