Ce projet est un travail pratique de classification supervisée visant à prédire si un individu gagne plus ou moins de 50 000$ par an, à partir de variables socio-économiques. Il est basé sur un dataset classique issu du recensement américain.
tp-classification-revenue.ipynb: Notebook Jupyter contenant toutes les étapes du projet, de l'exploration des données à l'évaluation finale du modèle.
Utiliser des méthodes de machine learning supervisé pour construire un modèle de classification binaire permettant de prédire si le revenu d'une personne dépasse 50 000$.
Le notebook passe ces différentes étapes :
- Importation des bibliothèques
- Chargement et compréhension des données
- Nettoyage et traitement des données :
- Gestion des valeurs manquantes
- Encodage des variables catégorielles
- Standardisation des variables
- Exploration des données (EDA) :
- Visualisations des distributions
- Analyse des corrélations
- Construction de modèles et Optimisation des paramètres et du seuil de discrimination :
- Dummy Classifier
- Régression logistique
- K plus proches voisins (KNN)
- Random Forest
- Gradient Boosting
- Évaluation des performances :
- Matrices de confusion
- Accuracy, précision, rappel, F1-score
- Courbes ROC
- Feature importance avec Shap
Les performances des modèles sont comparées pour identifier celui offrant la meilleure capacité de prédiction.
- Python ≥ 3.7
- Jupyter Notebook ou Jupyter Lab
- Bibliothèques :
pandasnumpymatplotlib,seabornscikit-learnShap
Pour exécuter le notebook :
jupyter notebook tp-classification-revenue.ipynbLes données utilisées proviennent d'une version traitée du Census Income Dataset (Adult dataset) de l'UCI Machine Learning Repository.
- Réalisé par : Sié Rachid Traoré
- Sous la supervision de : Mme Mously Diaw
- Formation : ENSAE – TP de Machine Learning


