Skip to content

Un proyecto de Ciencia de Datos enfocado en clusterizar clientes para una cadena de supermercados.

Notifications You must be signed in to change notification settings

Valamca/Esencia_del_cliente

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Esencia del cliente | Python | Data Science | Alura


alchemyrefiner_alchemymagic_0_d4d504ef-4fa9-4606-ba97-54474a8c0361_0

Descripción: 📄 🤖

Este proyecto tiene como objetivo presentar un análisis de ciencia de datos sobre la base de clientes de una cadena de supermercados. Se centra en la clusterización de los clientes para lograr un enfoque más efectivo hacia ellos.

Configuración del ambiente: 💻

Para empezar, se puede utilizar cualquier entorno de Python, tan sólo asegúrate que sea una versión 3.X, el base es Jupyter Notebook, también necesitarás instalar algunas librerías de Python que son esenciales para este proyecto, como:

  • Pandas
  • Numpy
  • Matplotlib
  • Scikit-learn
  • Seaborn

Obtención de datos: 📃

Los datos para el presente proyecto fueron obtenidos del siguiente repositorio: Kaggle

image

Exploración de los datos 🔎

Como el dataset original está en inglés,se tradujo todo a español para tener una mejor comprensión del mismo. La exploración visual de datos permite a los científicos de datos examinar y explorar grandes volúmenes de datos de manera intuitiva y eficiente. Al representar los datos visualmente, se pueden identificar características importantes, como valores atípicos, distribuciones, correlaciones y agrupaciones, que podrían no ser evidentes al examinar solo los números o las tablas de datos.

Haciendo uso de Matplotlib y Seaborn se generaron diversos gráficos para entender mejor los datos.

Preprocesamiento

En esta fase se codificaron las variables categóricas para que el modelo de clusterización las pueda reconocer. además de seleccionarse algunas variables que demostraron ser mas relevantes que otras

Clusterización y Validación

El algoritmo elegido para la clusterización fue Kmeans, se usaron tanto datos en bruto como datos estandarizados para observar su distribución y % de ajuste a los diferentes métodos de clusterización.
Para realizar la estandarización de datos se recurrió al algoritmo de StandarScaler.

Para la Validación se usaron las métricas:

  • Silhouette.
  • Davies-Bouldin.
  • Calinski and Harabasz.

Descripción de cluster

Una vez se realizó la clusterización, se generaron las descripciones de que tipo de información fueron asignados a cada tipo de cluster, y algunas de las recomendaciones que se dan para abordar a cada tipo de segmentación de cliente.

Desarrollador 😉

Francisco Valam Cortes
GitHub
Linkedin
Twitter

About

Un proyecto de Ciencia de Datos enfocado en clusterizar clientes para una cadena de supermercados.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published