Librairies utilisées pour le projet :
- Pytorch : instructions d'installation ici https://pytorch.org/
- scikit-learn : instruction d'installation ici https://scikit-learn.org/stable/install.html
- pydot pour générer un graphe d'arbre de décision : instruction d'installation ici https://pypi.org/project/pydot/
Langage de programmation : Python
- version installée 3.7
Logiciels de programmation
- Visual Studio 2017
- ou un éditeur de texte
- ou jupyter notebook : procédure d'installation ici https://jupyter.org/install
- Google colaboratory
J'ai utilisé du code provenant de la documentation pour aller plus vite. vous pourrez retrouver ces bouts de codes dans les références ci-dessous :
- https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html
- méthode pour créer la matrice de confusion : https://scikit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix.html#sphx-glr-auto-examples-model-selection-plot-confusion-matrix-py
- https://pytorch.org/docs/stable/nn.html
Il faut combiner les deux dossiers Base_de_donnees_1.zip et Base_de_donnees_2.zip pour obtenir la base complète pour les bases d'apprentissage et de validation. C'est important car les deux dossiers ont été séparés pour des questions de taille de chargement dans github. Il y a au moins 9000 fichiers répartis dans les deux dossiers.
La base de tests est dans le dossier Base_de_tests.zip. C'est un fichier csv.
Les en-têtes sont différentes des deux bases de données sont différentes. Il y a plus d'informations dans la base de tests et les noms des colonnes sont différents.
il faut modifier les emplacements des bases dans les fichiers .py pour réfléter la position des bases dans votre système
Exécution des fichiers :
- en ligne de commande : python nomdufichier.py
- directement dans Visual Studio avec le bouton Run
Si vous avez des questions, n'hésitez pas à m'envoyer un mail à : lindagbe-perside.gbehounou.1@ens.etsmtl.ca
Bonnne chance !!!!