Este proyecto presenta un análisis de datos realizado durante la Feria de León 2025, donde se implementó el "Mapa de Bienestar", una iniciativa innovadora para evaluar parámetros de salud de los asistentes mediante encuestas que incluyeron datos generales (edad, presión arterial, antecedentes médicos, etc.) y escalas clínicas validadas internacionalmente.
"El Mapa de Bienestar representa un enfoque innovador para acercar herramientas de evaluación de la salud a la población general, utilizando tecnología de vanguardia para democratizar el acceso a información médica personalizada."
Los resultados fueron procesados y presentados a través de un dashboard interactivo donde un modelo de lenguaje explicaba la información personalizada a cada usuario. Este notebook (wellness_map_analysis.ipynb) contiene el análisis de los datos agregados recolectados durante el evento.
| Archivo | Descripción |
|---|---|
📊 wellness_map_analysis.ipynb |
Notebook principal con el análisis, visualizaciones y conclusiones |
🔒 data/data-mapa-bienestar.csv |
Archivo de datos utilizado en el análisis (no se publica por protección de datos personales) |
📜 LICENSE |
Licencia MIT para el uso y distribución del código |
Analizar los datos de bienestar recolectados durante la Feria de León 2025, identificar patrones epidemiológicos y generar visualizaciones útiles para la toma de decisiones en salud pública.
- ✅ Caracterizar a la población asistente a la Feria de León 2025 en términos demográficos y de salud.
- ✅ Identificar la prevalencia de factores de riesgo cardiovascular, respiratorio y osteomuscular.
- ✅ Evaluar el nivel de actividad física y comportamientos sedentarios.
- ✅ Detectar posibles casos de subdiagnóstico en condiciones prevalentes como diabetes e hipertensión.
- ✅ Generar información útil para el diseño de programas preventivos y de promoción de la salud.
El archivo data/data-mapa-bienestar.csv contiene los datos utilizados en el análisis (no se publica por protección de datos personales). Los datos fueron recolectados mediante encuestas aplicadas a los asistentes de la Feria de León 2025 tras obtener su consentimiento informado.
El proyecto utilizó las siguientes escalas y herramientas validadas internacionalmente:
| Escala | Descripción | Aplicación |
|---|---|---|
| 📏 IMC (BMI) | Índice de Masa Corporal | Clasificación del estado nutricional |
| 🩸 Cambridge Diabetes Risk Score | Puntuación de riesgo de diabetes | Evaluación del riesgo de diabetes tipo 2 |
| ⚖️ Peso corporal ideal y ajustado | Cálculos antropométricos | Estimación de parámetros antropométricos óptimos |
| 🔥 Tasa metabólica basal | Metabolismo basal | Cálculo del gasto energético en reposo |
| 🏃 IPAQ | International Physical Activity Questionnaire | Evaluación estandarizada de actividad física |
| ❤️ Globorisk | Riesgo cardiovascular global | Estimación del riesgo cardiovascular |
| 🚬 Índice tabáquico | Exposición al tabaco | Cuantificación de la exposición al tabaco |
| 💪 SARC-F | Cuestionario de sarcopenia | Detección del riesgo de sarcopenia |
| 🫁 COPD Population Screener | Tamizaje pulmonar | Tamizaje para Enfermedad Pulmonar Obstructiva Crónica |
| 🦴 OST | Osteoporosis Self Assessment Tool | Herramienta de autoevaluación para osteoporosis |
| 👚 Modelo de Gail | Modelo predictivo | Estimación del riesgo de cáncer de mama |
Los datos fueron recolectados mediante encuestas digitales durante la Feria de León 2025. Los participantes proporcionaron información demográfica, médica y contestaron cuestionarios estandarizados validados internacionalmente.
El análisis se realiza en Python, aprovechando bibliotecas como pandas, matplotlib, seaborn y otras herramientas de visualización y análisis de datos.
# Ejemplo de código para análisis de datos
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# Cargar los datos
data = pd.read_csv('data/data-mapa-bienestar.csv')
# Eliminar registros de prueba
data = data[~data['name'].isin(nombres_de_prueba)]
# Visualizar distribución de edad
plt.figure(figsize=(10, 6))
sns.histplot(data['age_years'], bins=20, kde=True)
plt.title('Distribución de Edades')
plt.xlabel('Edad (años)')
plt.ylabel('Frecuencia')
plt.show()El notebook documenta paso a paso:
- 🧹 Limpieza de datos: Eliminación de registros de prueba, manejo de valores atípicos, etc.
- 📊 Exploración descriptiva: Análisis de variables clave
- 👥 Análisis por grupos: Estadísticas por grupos demográficos
- 📝 Procesamiento de escalas: Cálculo de puntuaciones normalizadas
- 📈 Generación de visualizaciones: Identificación de patrones relevantes
Los resultados fueron integrados en un dashboard interactivo donde los participantes podían revisar sus resultados personales. Un modelo de lenguaje natural proporcionaba explicaciones personalizadas sobre los hallazgos y recomendaciones basadas en la evidencia científica.
El análisis realizado en el notebook abarca las siguientes áreas clave:
- Importación de los datos recolectados en la Feria de León 2025.
- Eliminación de registros de prueba para asegurar la calidad del análisis.
- Revisión de las variables y su integridad (83 columnas, 1556 registros tras limpieza).
- Edad:
- Rango: 3 a 152 años (media: 31.8 años).
- Distribución de grupos de edad en intervalos de 10 años.
- Visualización: gráfico de barras por grupos de edad.
- Sexo:
- 59.4% mujeres, 40.6% hombres.
- Visualización: gráfico de barras y pastel.
- Ubicación:
- Distribución por país, estado y municipio.
- Visualización: gráficos de barras con porcentajes.
- Etnicidad:
- Análisis de la diversidad étnica de la muestra.
- Edad al primer periodo menstrual, familiares con cáncer de mama, edad al primer parto y biopsias previas.
- Gráficos de barras para cada variable.
- Estado de tabaquismo (fumador actual, exfumador, nunca fumador).
- Distribución de cigarrillos por día y años de exposición al tabaco entre fumadores y exfumadores.
- Estadísticas clave: media de años de exposición ~9.6 años.
- Visualizaciones: histogramas y gráficos de barras.
- Altura (media: 159.7 cm) y peso (media: 67.8 kg), distribuidos por sexo y grupo etario.
- Comparación entre peso real e ideal, análisis de BMI (índice de masa corporal):
- 7.9% bajo peso, 38.2% peso normal, 32.1% sobrepeso, 19.8% obesidad, 2.0% obesidad mórbida.
- Visualizaciones: boxplots, histogramas, scatterplots y líneas de tendencia LOWESS.
- Distribución de caídas en el último año y por grupo de edad.
- Análisis de presión arterial sistólica (media: 119 mmHg) y prevalencia de hipertensión (8.9% diagnosticados vs 35% estimados, mostrando subdiagnóstico).
- Visualizaciones: histogramas, gráficos de barras y pastel.
- La muestra es predominantemente joven, con ligera mayoría femenina.
- Se identifican patrones de sobrepeso y obesidad relevantes para la salud pública.
- Existe un subdiagnóstico importante de hipertensión en la población analizada.
- El análisis permite identificar grupos de riesgo y orientar estrategias de intervención.
| Biblioteca | Propósito | Versión |
|---|---|---|
| 🐼 pandas | Procesamiento y análisis de datos | 1.0+ |
| 📊 matplotlib | Visualización de datos (gráficos básicos) | 3.0+ |
| 📈 seaborn | Visualización de datos (gráficos estadísticos) | 0.11+ |
| 📓 jupyter | Entorno interactivo para notebooks | 1.0+ |
| 🔢 numpy | Operaciones numéricas y estadísticas | 1.18+ |
| 🧠 scikit-learn | Análisis estadísticos avanzados | 0.22+ (opcional) |
# Crear un entorno virtual (recomendado)
python -m venv venv
source venv/bin/activate # En Windows: venv\Scripts\activate
# Instalar dependencias
pip install pandas matplotlib seaborn jupyter numpy scikit-learn-
📥 Clona el repositorio o descarga los archivos:
git clone https://github.com/DiegoLerma/wellness_map_data_analysis.git cd wellness_map_data_analysis -
📓 Abre el notebook
wellness_map_analysis.ipynbcon Jupyter Notebook o JupyterLab:jupyter lab # o jupyter notebook -
▶️ Ejecuta las celdas para reproducir el análisis y visualizar los resultados.
| Área | Aplicación |
|---|---|
| 🏥 Salud pública | Identificación de patrones de riesgo en una población específica |
| 🔍 Medicina preventiva | Detección temprana de factores de riesgo modificables |
| 📝 Planificación | Diseño de programas basados en necesidades reales identificadas |
| 💬 Comunicación innovadora | Uso de modelos de lenguaje para explicar información médica compleja |
Los datos presentados en este análisis han sido anonimizados y se manejan siguiendo los principios de la ética médica y la normativa de protección de datos. El proyecto cuenta con las autorizaciones correspondientes para el uso de la información con fines de análisis y mejora de programas de salud.
Este proyecto está bajo la Licencia MIT. Consulta el archivo LICENSE para más detalles.



