Skip to content

Latest commit

 

History

History
105 lines (79 loc) · 4.39 KB

20180622_SGCIB_Data-mining.adoc

File metadata and controls

105 lines (79 loc) · 4.39 KB

Les vendredis de l’architecture : Data Mining

Table of Contents

Présenté par Gael CHERIEF, architecte technique à la SGCIB, chez DCC/ARC

Notes

Gael a présenté cette conf pendant 7 ans dans une école d’ingénieur française.
Il travaille à la SGCIB depuis 6 mois.

  • Qu’est ce que le Data mining ("exploration de données") ?

    • l’extraction d’un savoir à partir d’une grande quantité de données

    • davantage une grande variété de données qu’un grand volume

    • par des méthodes automatiques ou semi-automatiques

    • à la fois une science, une méthode et un ensemble de techniques (statistiques et probabilistes)

  • Machine Learning

    • un des moyens de faire du Data Mining (une de ses boîtes à outils)

    • sous-ensemble de l’IA

    • développement et implémentation de méthodes permettant à une machine d’évoluer vers un processus systématique

  • IA : ensemble de tbéorie et techniques mises en oeuvre en vue de réaliser des machines capables de simuler l’intelligence

  • Les données sont (seulement) un des moyens de représenter une information.

    • Et il y a (quasi) toujours de la perte dans cette représentation

  • Data Scientist

    • Créer le modèle : 5% de leur travail, car, actuellement, de plus en plus de réutilisation de modèles déjà existants (les plus récents ont 20 ans…​).
      → Et de plus en plus de compositions de modèles.

    • l’essentiel de leur travail consiste à trouver des data ou des modèles à amener vers le Machine Learning (à vérifier)

  • Résultat du Data Mining :

    • Data Mining descriptif : extraire de l’information existante mais masquée

    • Prédictif : prédire une information en fonction d’informations disponibles

    • les types de résultats :

      • classification : paquet de choses (ne se ressemblant pas obligatoirement)

      • estimation

      • association

      • détermination de relations

      • prédiction

      • prévision

      • description

      • optimisation

      • segmentation : paquet de choses se ressemblant (homogènes)

  • Le Data Mining est un processus itératif et coopératif :

    • définir le problème

    • recherche de données

    • sélection de données

    • nettoyage de données

    • réorganisation de données

    • recherche du ou des modèles

    • évaluation du résultat

le travail du Data Scientist est de travailler les données (en y ajoutant de l’information, généralement "masquée" initialement, en nettoyant la data, etc.) afin d’améliorer le résultat du Machine Learning.

l’ordinateur adore les sophismes
— Gael

→ Donc attention aux fausses corrélations, se méfier des résultats.

  • A partir de la sélection des données (inclus), tout le process doit être industrialisé.

    • Principalement car nous vivons dans un monde changeant, auquel il faut pouvoir s’adapter rapidement.

    • Le travail du Data Scientist est de travailler les Data (sélection, nettoyage, réorganisation, etc.).
      C’est ce travail qui devra, de par la suite, être industrialisé.

  • Apprentissage supervisé ou non supervisé :

    • supervisé : on guide l’algo en lui fournissant des exemples de qui est attendu en sortie.
      → L’apprentissage supervisé est utilisé quand l’utilisateur sait labelliser les informations, l’extraction des données est donc prédictive.

    • non supervisé : apprentissage autonome, les data sont communiquées à la machine sans lui fournir les exemples de résultats attendus en sortie.
      → L’apprentissage non-supervisé cherche à trouver des partitions de modèles par lui-même, l’extraction des données est donc descriptive.

    • matrice de confusion : tableau 2 dimensions entre la prédiction obtenue par le modèle, et la réalité.