Ce projet provient à l'origine d'une compétion Kaggle dont le but était de sélectionner le meilleur modèle de scoring pour sa clientèle
L'enjeu est de developper un modèle de scoring:
- pour aider à décider si un prêt peut être accordé à un client ou non
- qui doit etre facilement interprétable
Jeu de données:
lien
Ressources utiles sur l'interprétabilité en python:
lien 1
lien 2
lien 3
lien 4
lien 5
un notebook commenté d'analyse descriptive
un notebook commenté de modélisation:
- qui transforme et construit de nouvelles variables
- qui met en oeuvre un certains nombre de taches de preprocessing comme:
- l'undersampling
- le split train/test
- la transformation one hot encoder de variables categorielles
- le scaling
- l'imputation
- qui met en oeuvre une fonction de scoring bespoke adaptée
- qui entraine différents modèles supervisés répondant aux attentes du metier:
- regression logistique, linear SVM classifier, SVM classifier
- random forest
- bagging, adaboost, gradient boosting
- qui adapte des hyperparamètres d'un modèle
- qui évalue et interprète les performances d'un modèle supervisé classique