Skip to content

Latest commit

 

History

History
65 lines (40 loc) · 6.18 KB

3. Section 2: the Invisible Man is in your spreadsheet, messing with your data.md

File metadata and controls

65 lines (40 loc) · 6.18 KB

Introduction

Il y a quelque chose d'effrayant dans votre feuille de calcul, et ce n'est pas sympathique.

http://farm9.staticflickr.com/8092/8402327514_10a8f622fd_n_d.jpg Illustration 1: Le poster du film de l'Homme invisible, 1933. Source de l'image. Reproduit sous licence [Fair Use].

“Même la Lune est effrayée par moi”, hurle l'Homme invisible, autrement connu sous le nom de Dr Griffen, un génie rendu fou après avoir expérimenté sur lui-même! Si vous avez le temps, regardez la bande-annonce du film de 1933. Des choses effrayantes commencent à arriver aux gens dans une petite ville: des traces de pas dans la neige mystérieuses, des objets de maison qui semblent voler dans les airs, des gens qui sont poussés dans les escaliers (et depuis les collines!). Et dans notre cas: [messing with our spreadsheet].

Nous ne pouvons pas voir l'Homme invisible lui-même (évidemment, ou il ne serait pas invisible). Mais nous n'arrivons pas à trouver des traces de ce travail dans notre feuille de calcul, alors que nous pouvons voir ses empreintes de pas dans la neige :

http://farm9.staticflickr.com/8086/8402327534_fb1e33e0a7_o_d.png

Une erreur qu'il a inséré que vous pouvez voir clairement, mais que les autres trouveront plus difficiles à identifier à l'oeil nu:

  • Des espaces en trop à la fin des entrées.
  • Des tabulations sont insérées à la fin des lignes
  • Des retours à la ligne et des ‘retours chariots’, que vous insérez en appuyant sur Entrée (ou Ctrl-Entrée).

Ces élements sont appelés des caractères “non-imprimables”, et ne sont pas affichés tout le temps dans les feuilles de calcul. Mais vous sentirez toujours leur sinistre présence comme ils affectent beaucoup l'analyse des données. C'est parce que les feuilles de calcul traitent ces types de caractères comme des vrais données. En ignorant la colonne d'étiquette, dans les données ci-dessus, vous pouvez voir quatre termes qui sont essentiellement les mêmes. La feuille de calcul, cependant, voit quatre morceaux de données différents et distincts. Si vous essayiez de compter le nombre de fois que “Your Data” est mentionné, une feuille de calcul vous montrerait seulement une seule entrée.

Dans le film, la police déploie un piège pour attraper l'Homme invisible. Nous pouvons faire la même chose dans nos feuilles de calcul. A la fin de la section, vous devriez avoir:

  • quelques connaissances sur les caractères non-imprimables qui causent des erreurs dans les données
  • essayé différentes fonctions et caractéristiques de votre tableur qui peuvent les enlever

Un peu de travail supplémentaire

Pour faire les tâches à la fois rapides et plus longues ci-dessous, vous aurez besoin d':

  1. un outil de manipulation des feuilles de calcul, comme Excel ou Libre Office.
  2. une copie de la feuille de calcul exemple pour cette section.
  3. une copie du jeu de données du cours, qui est la donnée de GRAIN (http://grain.org) sur “l'accaparement des terres”.

Une tâche rapide (15 minutes)

  • Téléchargez et ouvrez la feuille de calcul exemple sur votre ordinateur. Dans la colonne A, on trouve la donnée provenant d'au dessus, avec différent types de caractères non-imprimables. Dans les colonnes B-E sont les quatres méthodes simples pour enlever les caractères non-imprimables de votre donnée: * la fonction TRIM (dans la colonne B) * la fonction CLEAN (dans la colonne C) * les fonctions TRIM et CLEAN …. ensemble! (dans la colonne D) * la fonction “Collage Spécial” (dans la colonne E)
  • Appliquer un “AutoFiltre” sur la donnée (Données → Filtre → AutoFiltre). Cliquez sur les petites flèches descendantes et une liste de sélection va apparaître en se déroulant, affichant le nombre d'entrées distinctes dans chaque colonne. Si vous cliquez sur l'autofiltre pour chacune des colonnes A jusqu'à E, vous pouvez voir l'effet des différentes méthodes pour enlever les caractères non-imprimables.
  • Double-cliquez sur les cellules pour voir les formules et comment les fonctions marchent en pratique. Il y a plus d'informations sur chacune d'elles dans la partie ‘Etudes’ ci-dessous.
  • Maintenant, essayez par vous-même. Créez ou trouvez un colonne de donnée unique par vous-même. Appliquez ces quatre méthodes dans le même format que notre jeu de données dans votre feuille de calcul. Utilisez la zone de discussion ci-dessous pour partager votre travail et de nombreuses observations sur cette tâche.

Une tâche plus longue (30-60 minutes)

Depuis le [Data Wrangling Handbook Recipe] sur le Nettoyage des données, parcourez le problème 2: "Espaces-blancs et nouvelles lignes" – des données qui ne devrait pas présente en utilisant le jeu de donnée GRAIN. Il rentre plus dans les détails des fonctions CLEAN et TRIM.

Liste de lecture

  • Regardez cette vidéo YouTube très utile de ["Excel is Fun"] à propos de l'utilisation de CLEAN et TRIM.
  • Lisez la page d'aide de Microsoft, surprenamment très utile, sur la suppression des espaces en trop et les caractères non-imprimables. La majorité des instructions fonctionnera dans LibreOffice et les feuilles de calcul Google, même si il y a quelques différences. Jetez un oeil sur la documentation des fonctions: TRIM (Excel, LibreOffice, Google Docs) et CLEAN (Excel, LibreOffice, Google Docs).
  • Lisez les fonctionnalités de la documentation: Collage Spécial (Excel, LibreOffice, Google Docs), Autofiltre (Excel, LibreOffice, Google Docs)
  • Pour les chasseurs d'Homme invisible, vous pouvez en lire plus sur l'usage des expressions régulières dans LibreOffice, ici. Nous couvrons aussi ceci dans la tâche plus longue ci-dessus, mais ce n'est pas vraiment simple et direct.

Repos et réflexion

L'Homme invisible peut apparaître à n'importe quel moment, c'est pourquoi, nous devons être vigilant.

  • Comment cet espace blanc a été introduit dans notre donnée?
  • Pouvez-vous penser à d'autres manières d'aborder le problème?

Partagez vos idées dans la zone de discussion.

Maintenant, passons à la troisième section dans ce cours sur le nettoyage des données, appelé [“Your data is a witch’s brew”].