Este projeto aplica técnicas de clusterização para identificar padrões nos custos de seguros de saúde com base em dados demográficos e comportamentais. Utilizando o algoritmo K-Prototypes, conseguimos agrupar indivíduos levando em consideração variáveis numéricas e categóricas.
Identificar grupos homogêneos de indivíduos para:
- Entender os principais fatores que influenciam o custo do seguro.
- Auxiliar na criação de políticas personalizadas de seguros.
- Gerar insights para otimizar a precificação dos planos de saúde.
O dataset utilizado contém informações demográficas, comportamentais e financeiras relacionadas a indivíduos e seus custos de seguros de saúde. As colunas principais são:
- idade: Idade do indivíduo.
- sexo: Gênero (male ou female).
- imc: Índice de Massa Corporal.
- quantidade_filhos: Número de filhos dependentes.
- fumante: Indica se é fumante (yes ou no).
- regiao: Região geográfica (northwest, southwest, southeast, northeast).
- custos_seguro: Custo do seguro de saúde.
O projeto seguiu as etapas abaixo:
- Análise exploratória dos dados para identificar distribuições, outliers e correlações.
- Tratamento de valores faltantes e transformações necessárias.
- Codificação de variáveis categóricas para uso no modelo K-Prototypes.
- Implementação do algoritmo K-Prototypes para lidar com dados mistos.
- Determinação do número ótimo de clusters.
- Visualização dos clusters em gráficos 2D utilizando
seaborn
eplotly
. - Análise dos perfis de cada cluster.
- Linguagem: Python
- Bibliotecas Principais:
pandas
,numpy
: Manipulação e análise de dados.matplotlib
,seaborn
,plotly
: Visualizações.kmodes.kprototypes
: Algoritmo de clusterização para dados mistos.
- Foram identificados grupos com características distintas baseados em idade, IMC, região, e hábitos de fumo.
- Os clusters mostraram-se úteis para explicar variações nos custos de seguros.
Abaixo está a visualização dos clusters identificados:
- Clone este repositório:
git clone https://github.com/AurelioGuilherme/DNC_projetos.git
- Instale as dependências listadas no arquivo
requirements.txt
:pip install -r requirements.txt
- Execute o notebook
Clustering_project.ipynb
para reproduzir as análises e resultados.
Sugestões e melhorias são bem-vindas! Envie um pull request ou entre em contato através da aba de Issues.