- Efraín Calle Chambe
- Hugo Jazyel Calle Ontaneda
- Yudith Diana Chalco Cerezo
- Leidy Fabiola Chero Villegas
- Brayan Poma Huamán
- Barbara Gabriela Sánchez Vásquez
Este repositorio reúne el desarrollo completo del proyecto de clasificación de respuestas abiertas de ocupación usando datos de la ENAHO. El propósito es transformar descripciones textuales en códigos ocupacionales mediante técnicas de procesamiento de lenguaje natural y modelos de aprendizaje automático.
El contenido del repositorio refleja un flujo de trabajo organizado en etapas:
Reúne, estandariza y combina fuentes relevantes para formar el dataset final. Incluye verificación de tipos, revisión de columnas, control de etiquetas y preparación previa al análisis.
Evalúa distribuciones, valores faltantes, calidad general del texto y posibles sesgos. Permite detectar ajustes necesarios antes del modelado.
Incluye normalización, corrección de caracteres, depuración de entradas inválidas, tratamiento de duplicados y manejo de valores faltantes. Garantiza un dataset apto para el pipeline de modelado.
Define reglas de muestreo, división en conjuntos de entrenamiento/validación/prueba y preparación en un formato compatible con los modelos.
Incluye pruebas con diferentes modelos de lenguaje. Cada experimento detalla configuración, entrenamiento, métricas y observaciones.
Se emplean métricas adecuadas para comparar modelos y seleccionar la alternativa más sólida.
- Efraín Calle Chambe
- Hugo Jazyel Calle Ontaneda
- Yudith Diana Chalco Cerezo
- Leidy Fabiola Chero Villegas
- Brayan Poma Huamán
- Barbara Gabriela Sánchez Vásquez
This repository contains the full development of a project focused on classifying open-ended occupational responses using ENAHO data. The goal is to transform free-text descriptions into occupational codes through natural language processing techniques and machine learning models.
The workflow is structured in the following stages:
Collects, standardizes, and merges relevant sources to build the final dataset. Includes type checking, column validation, label review, and initial preparation.
Assesses distributions, missing values, text quality, and potential biases. Supports decisions required before modeling.
Covers text normalization, character correction, removal of invalid entries, duplicate handling, and missing value treatment. Ensures the dataset is ready for the modeling pipeline.
Defines sampling rules, splits into train/validation/test sets, and prepares data in a model-friendly structure.
Includes tests with different language models. Each experiment documents configuration, training process, metrics, and insights.
Uses suitable metrics to compare models and select the strongest option.