GitHub - bsanchezv/classification_coding_open_ended_occupational_responses_ENAHO

Autores

Efraín Calle Chambe
Hugo Jazyel Calle Ontaneda
Yudith Diana Chalco Cerezo
Leidy Fabiola Chero Villegas
Brayan Poma Huamán
Barbara Gabriela Sánchez Vásquez

Descripción del proyecto

Este repositorio reúne el desarrollo completo del proyecto de clasificación de respuestas abiertas de ocupación usando datos de la ENAHO. El propósito es transformar descripciones textuales en códigos ocupacionales mediante técnicas de procesamiento de lenguaje natural y modelos de aprendizaje automático.

El contenido del repositorio refleja un flujo de trabajo organizado en etapas:

1. Consolidación de datos

Reúne, estandariza y combina fuentes relevantes para formar el dataset final. Incluye verificación de tipos, revisión de columnas, control de etiquetas y preparación previa al análisis.

2. Análisis exploratorio (EDA)

Evalúa distribuciones, valores faltantes, calidad general del texto y posibles sesgos. Permite detectar ajustes necesarios antes del modelado.

3. Limpieza y preprocesamiento

Incluye normalización, corrección de caracteres, depuración de entradas inválidas, tratamiento de duplicados y manejo de valores faltantes. Garantiza un dataset apto para el pipeline de modelado.

4. Construcción del dataset de entrenamiento

Define reglas de muestreo, división en conjuntos de entrenamiento/validación/prueba y preparación en un formato compatible con los modelos.

5. Experimentación con modelos

Incluye pruebas con diferentes modelos de lenguaje. Cada experimento detalla configuración, entrenamiento, métricas y observaciones.

6. Evaluación del desempeño

Se emplean métricas adecuadas para comparar modelos y seleccionar la alternativa más sólida.

Authors

Efraín Calle Chambe
Hugo Jazyel Calle Ontaneda
Yudith Diana Chalco Cerezo
Leidy Fabiola Chero Villegas
Brayan Poma Huamán
Barbara Gabriela Sánchez Vásquez

Project Description (English Version)

This repository contains the full development of a project focused on classifying open-ended occupational responses using ENAHO data. The goal is to transform free-text descriptions into occupational codes through natural language processing techniques and machine learning models.

The workflow is structured in the following stages:

1. Data consolidation

Collects, standardizes, and merges relevant sources to build the final dataset. Includes type checking, column validation, label review, and initial preparation.

2. Exploratory Data Analysis (EDA)

Assesses distributions, missing values, text quality, and potential biases. Supports decisions required before modeling.

3. Cleaning and preprocessing

Covers text normalization, character correction, removal of invalid entries, duplicate handling, and missing value treatment. Ensures the dataset is ready for the modeling pipeline.

4. Training dataset construction

Defines sampling rules, splits into train/validation/test sets, and prepares data in a model-friendly structure.

5. Model experimentation

Includes tests with different language models. Each experiment documents configuration, training process, metrics, and insights.

6. Performance evaluation

Uses suitable metrics to compare models and select the strongest option.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
data		data
.gitignore		.gitignore
01_consolidation.ipynb		01_consolidation.ipynb
02_consolidation_eda.ipynb		02_consolidation_eda.ipynb
03_limpieza_preprocesamiento.ipynb		03_limpieza_preprocesamiento.ipynb
04_lematizacion.ipynb		04_lematizacion.ipynb
05_10_beto_concatenacion_model.ipynb		05_10_beto_concatenacion_model.ipynb
05_11_beto_base_model.ipynb		05_11_beto_base_model.ipynb
05_1_tf_idf_inicial_model.ipynb		05_1_tf_idf_inicial_model.ipynb
05_2_tf_idf_concatenacion_model.ipynb		05_2_tf_idf_concatenacion_model.ipynb
05_3_tf_idf_multimodal_model.ipynb		05_3_tf_idf_multimodal_model.ipynb
05_4_xlmroberta_base_model.ipynb		05_4_xlmroberta_base_model.ipynb
05_5_xlmroberta_concatenacion_model.ipynb		05_5_xlmroberta_concatenacion_model.ipynb
05_6_xlmroberta_multimodal_complete.ipynb		05_6_xlmroberta_multimodal_complete.ipynb
05_7_bertin_base_model.ipynb		05_7_bertin_base_model.ipynb
05_8_bertin_concatenacion_model.ipynb		05_8_bertin_concatenacion_model.ipynb
05_9_bertin_multimodal_complete.ipynb		05_9_bertin_multimodal_complete.ipynb
README.md		README.md
desktop.ini		desktop.ini
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Autores

Descripción del proyecto

1. Consolidación de datos

2. Análisis exploratorio (EDA)

3. Limpieza y preprocesamiento

4. Construcción del dataset de entrenamiento

5. Experimentación con modelos

6. Evaluación del desempeño

Authors

Project Description (English Version)

1. Data consolidation

2. Exploratory Data Analysis (EDA)

3. Cleaning and preprocessing

4. Training dataset construction

5. Model experimentation

6. Performance evaluation

About

Uh oh!

Releases

Packages

Languages

bsanchezv/classification_coding_open_ended_occupational_responses_ENAHO

Folders and files

Latest commit

History

Repository files navigation

Autores

Descripción del proyecto

1. Consolidación de datos

2. Análisis exploratorio (EDA)

3. Limpieza y preprocesamiento

4. Construcción del dataset de entrenamiento

5. Experimentación con modelos

6. Evaluación del desempeño

Authors

Project Description (English Version)

1. Data consolidation

2. Exploratory Data Analysis (EDA)

3. Cleaning and preprocessing

4. Training dataset construction

5. Model experimentation

6. Performance evaluation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages