Este proyecto tiene el objetivo de predecir las decisiones de la Comisión de Protección al Consumidor de INDECOPI
Este repositorio está dividido en tres secciones principales y una de exploración:
- Reading-Resolutions:
- Para predecir las decisiones debemos recurrir a las resoluciones disponibles de INDECOPI las cuales se encuentran organizadas aquí.
- Luego debemos realizar un primer procesamiento del documento donde convertimos de pdf a txt
- Procedemos con todo el procedimiento de text mining de estas resoluciones, todo ello se encuentra en el archivo procesamiento de de documentos.
- Preprocesing-vectorization:
- Lo siguiente es, a partir de lo anterior, estructura la data en tablas. Aquí vemos el resultado final de todas las resoluciones procesadas y organizadas por distintos años
- Estas tabalas servirán de input para vectorizar bajo distintos métodos:
- Binario
- TF-IDF
- Embeddings
- Modeling:
- En esta sección procedemos a realizar los modelos de aprendizaje supervisado que nos permitirán predecir:
- MLP
- SVM
- Random Forest
- En esta sección procedemos a realizar los modelos de aprendizaje supervisado que nos permitirán predecir:
- Exploracion-data: Finalmente se tiene una sección de bonus que nos da un alcance de exploración de los datos.
Todo el proyecto se encuentra hecho en Python 3.8.0 con el uso de las siguientes librerías:
- pdfminer
- xlwt
- Diego Alvarado El hacker
- Maria Paz Herrera La gfa
- Diego Mayandia Barbitas
Programado con ❤️
#laFe