Ce projet vise à prédire si un client est en capacité de contracter un prêt immobilier en utilisant un ensemble de données divisé en deux parties : test.csv
et train.csv
. Le dataset est pertinent pour analyser les facteurs influençant l'approbation des prêts, modéliser le risque de crédit, et développer des stratégies de prêt plus efficaces. Le projet comprend l'analyse exploratoire des données, la gestion des outliers, la visualisation des taux de prêt, l'analyse de corrélation, ainsi que le déploiement de l'application de prédiction avec Streamlit et la création d'un tableau de bord interactif avec Power BI.
- Introduction
- Étapes du Projet
- Analyse Exploratoire des Données (EDA)
- Gestion des Outliers
- Visualisation
- Analyse de Corrélation
- Prétraitement des Données
- Modélisation
- Choix de l'Algorithme de Machine Learning
- Déploiement avec Streamlit
- Tableau de Bord Power BI
- Conclusion
L'objectif principal de ce projet est de développer un modèle de machine learning capable de prédire la capacité d'un client à obtenir un prêt immobilier. Le projet inclut également des visualisations pour mieux comprendre les données et les tendances associées aux prêts immobiliers.
- Importation des données : Chargement des fichiers
train.csv
ettest.csv
. - Nettoyage des données : Gestion des valeurs manquantes et des doublons.
- Analyse Exploratoire des Données (EDA) :
- Analyse univariée
- Analyse bivariée
- Analyse multivariée
- Gestion des Outliers : Détection et traitement des valeurs aberrantes.
- Visualisation des Données : Création de graphiques et de visualisations pour mieux comprendre les tendances.
- Analyse de Corrélation : Création et visualisation de la matrice de corrélation.
- Prétraitement des Données :
- Encodage des variables catégorielles
- Normalisation des données
- Modélisation : Construction et évaluation du modèle de prédiction.
- Choix de l'Algorithme de Machine Learning :
- Sélection de l'algorithme adapté aux données et à l'objectif
- Déploiement :
- Déploiement de l'application avec Streamlit
- Création d'un tableau de bord interactif avec Power BI
L'analyse univariée consiste à examiner une variable à la fois. Nous analyserons les distributions des variables individuelles à l'aide d'histogrammes et de boîtes à moustaches (boxplots).
L'analyse bivariée examine la relation entre deux variables. Nous utiliserons sns.countplot
pour visualiser ces relations.
L'analyse multivariée examine les relations entre plusieurs variables simultanément. Nous utiliserons des graphiques en paires (pair plots) et des techniques de réduction de dimensionnalité comme l'ACP (Analyse en Composantes Principales).
Les outliers ou valeurs aberrantes peuvent fausser les résultats de notre analyse et de notre modèle. Nous utiliserons des techniques comme l'IQR (Interquartile Range) et les scores Z pour détecter et traiter ces valeurs.
Nous créerons diverses visualisations pour mieux comprendre les données, telles que :
- Histogrammes
- Boxplot
- Countplot
- Heatmaps
- Pairplots
Nous calculerons et visualiserons la matrice de corrélation pour identifier les relations entre les variables. Une heatmap de la matrice de corrélation nous permettra de voir facilement quelles variables sont fortement corrélées.
La préparation des données comprendra l'encodage des variables catégorielles et la normalisation des données pour garantir des résultats optimaux du modèle.
Pour ce projet, nous utiliserons la Régression Logistique comme algorithme de machine learning. La Régression Logistique est choisie pour sa capacité à modéliser des problèmes de classification binaire comme celui-ci, tout en étant interprétable et offrant de bonnes performances pour prédire la probabilité d'approbation d'un prêt immobilier.
Streamlit sera utilisé pour créer une application web interactive où les utilisateurs pourront :
- Charger de nouvelles données
- Voir les prédictions du modèle
- Visualiser les principales statistiques et graphiques
Nous utiliserons Power BI pour créer un tableau de bord interactif qui permettra aux utilisateurs de visualiser et d'explorer les données de manière intuitive. Ce tableau de bord comprendra :
- Des graphiques interactifs
- Des filtres dynamiques
- Des visualisations des prédictions du modèle
Ce projet combine des techniques d'analyse de données, de visualisation et de machine learning pour prédire la capacité d'un client à obtenir un prêt immobilier. Le déploiement de l'application avec Streamlit et la création d'un tableau de bord Power BI offrent des outils puissants pour l'exploration et la visualisation des données.
Pour toute question ou suggestion, n'hésitez pas à me contacter.