El presente proyecto muestra el procedimiento para calcular con herramientas de análisis y ciencia de datos, aquellos registros en que las causas de los incendios son desconocidas,
convirtiendolo en un procedimiento de clasificación.
De la misma manera, este set de datos será compartido en la plataforma de Kaggle para observar a mas personas conseguir diferentes soluciones al mismo problema.
Enlace: Forest Fire Registry of Mexico
Los datos fueron obtenidos del set de datos abiertos proporcionados por CONAFOR
Fuente Original:
CONAFOR, 2024
En este proyecto se emplearon los siguientes programas:
Exploración Inicial:
- Microsoft Excel
Análisis de datos:
- Visual Studio Code
Para empezar, se puede utilizar cualquier entorno de Python, tan sólo asegúrate que sea una versión 3.X, el base para este proyecto es Jupyter Notebook aunque tu puedes usar el Notebook de tu preferencia como: Google Colab, Anaconda, DeepNote, Azure, entre otros.
También necesitarás instalar algunas librerías de Python que son esenciales para este proyecto, como:
- Pandas
- Numpy
- Matplotlib
- Scikit-learn
- Seaborn
Base de datos:
- Microsoft SQL Server
Visualización de resultados:
- Power BI
Este proyecto de Ciencia de Datos se llevó a cabo en varias etapas diseñadas para garantizar la precisión y la eficacia.
La primera etapa implicó una inspección exhaustiva de los datos, durante la cual se exploró la estructura y la composición de los datos.
Para este caso en particular debido a que el archivo original es un .CSV, fue utilizado Excel para una primera exploración.
El uso de tablas dinámicas es una excelente herramienta para realizar exploraciones rápidas de datos.
Tras la inspección inicial, se realizó una limpieza de datos integral. Este proceso incluyó la normalización de los datos, la sustitución de valores y otros procedimientos necesarios para garantizar la validez de los datos para los análisis posteriores.
Para la limpieza de datos se opto por usar Python con Notebooks de Jupiter, esto debido a que el siguiente paso del análisis de datos es dependiente de este mismo.
Una vez limpios los datos, se implementaron modelos de Machine Learning para predecir los datos faltantes. Esto permitió la conformación de un conjunto de datos válido y completo para el análisis de datos.
Los datos se consolidaron posteriormente en una base de datos relacional. Para los propósitos de este proyecto, se optó por SQL Server debido a su integración sencilla con Power Apps.
Finalmente, se creó un tablero de control en Power BI para visualizar los resultados obtenidos a través de este procedimiento.
El Panel de control puede ser encontrando en la siguiente dirección: Incendios Forestales 2015-2023
Este proyecto de Ciencia de Datos ha demostrado ser un ejercicio exhaustivo y valioso en el manejo y análisis de datos. A través de una serie de pasos cuidadosamente diseñados, desde la inspección y limpieza de datos hasta la implementación de modelos de Machine Learning y la consolidación de datos, logrando transformar un conjunto de datos crudos en información significativa y utilizable.
La integración exitosa con SQL Server y Power Apps ha permitido una visualización efectiva de los resultados, lo que facilita la interpretación y el uso de los datos. El tablero de control creado proporciona una representación visual intuitiva de los resultados obtenidos.
Desarrollador 😉