Este proyecto tiene como objetivo presentar un análisis de ciencia de datos sobre la base de clientes de una cadena de supermercados. Se centra en la clusterización de los clientes para lograr un enfoque más efectivo hacia ellos.
Para empezar, se puede utilizar cualquier entorno de Python, tan sólo asegúrate que sea una versión 3.X, el base es Jupyter Notebook, también necesitarás instalar algunas librerías de Python que son esenciales para este proyecto, como:
- Pandas
- Numpy
- Matplotlib
- Scikit-learn
- Seaborn
Los datos para el presente proyecto fueron obtenidos del siguiente repositorio: Kaggle
Como el dataset original está en inglés,se tradujo todo a español para tener una mejor comprensión del mismo. La exploración visual de datos permite a los científicos de datos examinar y explorar grandes volúmenes de datos de manera intuitiva y eficiente. Al representar los datos visualmente, se pueden identificar características importantes, como valores atípicos, distribuciones, correlaciones y agrupaciones, que podrían no ser evidentes al examinar solo los números o las tablas de datos.
Haciendo uso de Matplotlib y Seaborn se generaron diversos gráficos para entender mejor los datos.
En esta fase se codificaron las variables categóricas para que el modelo de clusterización las pueda reconocer. además de seleccionarse algunas variables que demostraron ser mas relevantes que otras
El algoritmo elegido para la clusterización fue Kmeans, se usaron tanto datos en bruto como datos estandarizados para observar su distribución y % de ajuste a los diferentes métodos de clusterización.
Para realizar la estandarización de datos se recurrió al algoritmo de StandarScaler.
Para la Validación se usaron las métricas:
- Silhouette.
- Davies-Bouldin.
- Calinski and Harabasz.
Una vez se realizó la clusterización, se generaron las descripciones de que tipo de información fueron asignados a cada tipo de cluster, y algunas de las recomendaciones que se dan para abordar a cada tipo de segmentación de cliente.
Desarrollador 😉