Skip to content

bsanchezv/classification_coding_open_ended_occupational_responses_ENAHO

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Autores

  • Efraín Calle Chambe
  • Hugo Jazyel Calle Ontaneda
  • Yudith Diana Chalco Cerezo
  • Leidy Fabiola Chero Villegas
  • Brayan Poma Huamán
  • Barbara Gabriela Sánchez Vásquez

Descripción del proyecto

Este repositorio reúne el desarrollo completo del proyecto de clasificación de respuestas abiertas de ocupación usando datos de la ENAHO. El propósito es transformar descripciones textuales en códigos ocupacionales mediante técnicas de procesamiento de lenguaje natural y modelos de aprendizaje automático.

El contenido del repositorio refleja un flujo de trabajo organizado en etapas:

1. Consolidación de datos

Reúne, estandariza y combina fuentes relevantes para formar el dataset final. Incluye verificación de tipos, revisión de columnas, control de etiquetas y preparación previa al análisis.

2. Análisis exploratorio (EDA)

Evalúa distribuciones, valores faltantes, calidad general del texto y posibles sesgos. Permite detectar ajustes necesarios antes del modelado.

3. Limpieza y preprocesamiento

Incluye normalización, corrección de caracteres, depuración de entradas inválidas, tratamiento de duplicados y manejo de valores faltantes. Garantiza un dataset apto para el pipeline de modelado.

4. Construcción del dataset de entrenamiento

Define reglas de muestreo, división en conjuntos de entrenamiento/validación/prueba y preparación en un formato compatible con los modelos.

5. Experimentación con modelos

Incluye pruebas con diferentes modelos de lenguaje. Cada experimento detalla configuración, entrenamiento, métricas y observaciones.

6. Evaluación del desempeño

Se emplean métricas adecuadas para comparar modelos y seleccionar la alternativa más sólida.


Authors

  • Efraín Calle Chambe
  • Hugo Jazyel Calle Ontaneda
  • Yudith Diana Chalco Cerezo
  • Leidy Fabiola Chero Villegas
  • Brayan Poma Huamán
  • Barbara Gabriela Sánchez Vásquez

Project Description (English Version)

This repository contains the full development of a project focused on classifying open-ended occupational responses using ENAHO data. The goal is to transform free-text descriptions into occupational codes through natural language processing techniques and machine learning models.

The workflow is structured in the following stages:

1. Data consolidation

Collects, standardizes, and merges relevant sources to build the final dataset. Includes type checking, column validation, label review, and initial preparation.

2. Exploratory Data Analysis (EDA)

Assesses distributions, missing values, text quality, and potential biases. Supports decisions required before modeling.

3. Cleaning and preprocessing

Covers text normalization, character correction, removal of invalid entries, duplicate handling, and missing value treatment. Ensures the dataset is ready for the modeling pipeline.

4. Training dataset construction

Defines sampling rules, splits into train/validation/test sets, and prepares data in a model-friendly structure.

5. Model experimentation

Includes tests with different language models. Each experiment documents configuration, training process, metrics, and insights.

6. Performance evaluation

Uses suitable metrics to compare models and select the strongest option.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published