Skip to content

Modelo de ML para la predicción de ingresos (Census Income Dataset)

Notifications You must be signed in to change notification settings

daniel-lujan/income-prediction

Repository files navigation

Aprendizaje automático - Predicción de Ingresos

Python scikit-learn Pandas NumPy Matplotlib Jupyter Notebook

Universidad de Antioquia - Facultad de INgeniería - Ingeniería de Sistemas

Important

Este es un proyecto con propósitos académicos para el curso de Modelos y Simulación de Sistemas II.

Artículo científico: Aplicación de aprendizaje automático para la predicción de ingresos anuales

Integrantes

  • Daniel Lujan Agudelo
  • Juan Pablo Arango Gaviria

API

Se realizó la implementación de una API que entrena y sirve el mejor modelo para realizar predicciones con el modelo.

Repositorio: https://github.com/daniel-lujan/income-prediction-api

Descripción Notebooks

Los notebooks se encuentran enumerados en el orden en el que deben ser ejecutados para reproducir los resultados:

  1. EDA: Exploración inicial del conjunto de datos (columnas, tipos de datos, análisis multivariable, valores atípicos, datos faltantes, correlación)
  2. Preprocesamiento: Tratamiento a columnas con datos faltantes, eliminación de columnas equivalentes, codificación de variables categóricas. El conjunto de datos con los tratamientos aplicados se exportaron en forma de binarios a las rutas /preprocessed-data/basic/X-preprocessed.p y /preprocessed-data/basic/y-preprocessed.p.
  3. Balance de clases: Se aplicó submuestreo para balancear las clases. El conjunto de datos con las clases balanceadas se guardaron en forma de binarios en las rutas /preprocessed-data/final/X-preprocessed.p y /preprocessed-data/final/y-preprocessed.p.
  4. Entrenamiento de modelos: Aplicación de 3 tipos de modelos: LogisticRegression, RandomForestClassifier y KMeans. Las predicciones de clase generadas por todos los modelos fueron guardadas como binarios en el directorio model_results.
  5. Red neuronal: Se implementó una red neuronal. Se realizó una busqueda de mejor configuración de capas ocultas y se almacenaron de igual forma los resultados.
  6. Análisis de resultados: Cálculo de métricas de evaluación y comparación entre los resultados de los modelos.

About

Modelo de ML para la predicción de ingresos (Census Income Dataset)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published