Skip to content

InseeFrLab/DoReMIFaSol

Repository files navigation

Récupérer et utiliser les données de l'Insee avec R / Get and use Insee's data with R

Project Status: WIP – Initial development is in progress, but there has not yet been a stable, usable release suitable for the public. build-artifacts R-CMD-check License:MIT Coverage status CRAN status

Français

De quoi s'agit-il ?

Le package doremifasol (Données en R Mises à disposition par l’Insee et Facilement Sollicitables) permet d'importer facilement dans R des données mises à disposition sur le site de l'Insee.

Il offre deux fonctionnalités principales :

  • télécharger et importer dans R des fichiers disponibles sur insee.fr (Base Permanente des Équipements, Recensement de Population, Filosofi...) ;
  • requêter l'API Sirene et recupérer les résultats dans R.

L'objectif du package est de rendre transparentes les différentes tâches à réaliser avant de pouvoir traiter les données : recherche sur le site, téléchargement, décompression, import dans R...

Idéal pour pratiquer son solfège en R sur des données françaises !

Pour installer le package :

# install.packages("remotes")
remotes::install_github("InseeFrLab/doremifasol", build_vignettes = TRUE)

Quelles données sont disponibles ?

Pour trouver quelles données le package peut aller récupérer sur le site de l'Insee, on peut commencer par explorer interactivement les données disponibles.

Cela permet notamment de connaître les identifiants (noms courts) et millésimes qui seront à spécifier aux fonctions de téléchargement.

Le package a vocation à intégrer de nouveaux jeux de données dès qu'ils sont mis en ligne. Ce processus n'est toutefois pas automatisé. Voir la section Contribuer pour suggérer l'ajout de nouvelles données.

Exemples d'usages

Les données du recensement de population

Le premier exemple concerne les données du recensement librement accessibles sur le site de l'Insee. Ce sont des données très volumineuses, et sauf à disposer de capacités de calcul conséquentes, il n'est en général pas possible de charger l'ensemble des données en mémoire. Pour cela, le package doremifasol permet de sélectionner les colonnes que l'on souhaite charger en mémoire, une fois le fichier téléchargé. Ainsi, un utilisateur qui voudrait connaître par commune le nombre de résidences principales en 2016 aura besoin des variables COMMUNE - le code commune - et CATL - la catégorie d'occupation du logement - de la table logement :

donnees_rp <- telechargerDonnees("RP_LOGEMENT", date = 2016, vars = c("COMMUNE", "IPONDL", "CATL"))

Filosofi

L'Insee met également à disposition un certain nombre d'indicateurs relatifs à la distribution des revenus et à la pauvreté au niveau communal, voire infra-communal. Ces données sont mises à jour chaque année à partir des sources fiscales ; il s'agit de la source "Filosofi". Ainsi, il est possible de télécharger ces indicateurs au niveau de la commune, pour l'ensemble des ménages par exemple, grâce à la syntaxe suivante :

donnees_filosofi <- telechargerDonnees("FILOSOFI_DISP_COM_ENS", date = 2017)

Ces données sont déclinées pour différentes catégories de ménages, et de la même manière peuvent être téléchargées grâce au package doremifasol.

Estimations localisées d'emploi en France

De la même manière que les données fiscales permettent de fournir des statistiques à un niveau géographique fin, d'autres sources administratives permettent de construire des estimations du nombre d'emplois présents dans les différentes communes du territoire français. Il s'agit des Estimations d'Emploi Localisées, qu'il est possible de récupérer en R grâce à la syntaxe suivante :

donnees_estel <- telechargerDonnees("ESTEL_T201", date = 2018)

Requêter une API REST : le répertoire d'entreprises Sirene

Supposons que l'on cherche maintenant à récupérer l'ensemble des établissements rattachés à une unité légale créée le 1er janvier 2020 ; pour cela, on peut par exemple envoyer une requête sur l'API REST Sirene de l'Insee. Pour cela, il faut au préalable avoir configuré un accès à l'API REST de l'Insee et passer en variables d'environnement les données d'identification. La procédure est expliquée par exemple ici. Une fois cela réalisé, la requête peut se faire facilement au travers de doremifasol de la manière suivante :

etablissements <- telechargerDonnees("SIRENE_SIRET", 
                                     argsApi = list(q = "dateCreationUniteLegale:2020-01-01"))

On fait alors face à une liste contenant plusieurs data.frame (6 au total) :

  • une table contenant l'ensemble des informations sur les établissements en question ;
  • deux tables contenant l'ensemble des informations sur les unités légales de ces établissements, en distinguant les unités dites purgées des autres ;
  • deux tables contenant les informations sur l'adresse de ces établissements ;
  • une table détaillant les informations historisées de ces établissements - c'est-à-dire les différentes modifications qu'ont connues les établissements entre leur création et la date de référence - ici par défaut la date de téléchargement.

Contribuer

Agent du Service Statistique Public, ou utilisateur des données mises à disposition sur le site de l'Insee, vous constatez qu'il manque dans la liste des données référencées dans doremifasol une source de données que vous utilisez ? Vous pouvez contribuer à doremifasol, sans nécessairement coder en R. Pour plus de détais, vous pouvez consulter la documentation à ce sujet.

English

What is it about?

doremifasol (data with R made available by Insee and easily retrievable in French) is a R package mainly aiming at showing off data available on Insee's website (Insee, for the French Institute for Statistics and Economic Studies), helping the user to put them on stage and extract the information they carry. So it is about analysing data, creating maps, quantifying phenomenons and in general using the data without the painful effort to retrieve them on the website, as well as import them into R's memory. The name of the package stands for the five first notes of music, and pushing the metaphore, underlines its aim at helping the users to easily pratice their solfège in R.

To install the package:

# install.packages("remotes")
remotes::install_github("InseeFrLab/doremifasol", build_vignettes = TRUE)

Which data is available?

You may begin by exploring interactively which data the package can fetch on Insee website with.

This is also a way to find out the identifiers (short names) and years to be passed as parameters to the downloading functions.

New data sources can be added to the package as soon as they are available online. However, this process is not automated. See the Contributing section for suggesting package administrators to add new sources.

A few examples

Census data

A first example of use of the package is related to the rolling Census implemented in France on a yearly basis. It concerns voluminous data that prove to be hard to load into R's memory on most of the machines. To adress the data size issue, the package doremifasol makes it possible to resize the data and only imports columns that are of interest for the user. Assume that one is interested in knowing the number of main residences for each municipality on the French territory in 2016, that one will only need three variables from the table logement (dwelling in French), COMMUNE the zip code, IPONDL the weight of the dwelling and CATL indicating the status of occupation:

donnees_rp <- telechargerDonnees("RP_LOGEMENT", date = 2016, vars = c("COMMUNE", "IPONDL", "CATL"))

Data on income distribution and poverty

Should you now be interested in data on income distribution, you may download information on income percentiles and poverty rate at the municipality level based on tax data, also knwow as 'Filosofi'. Those data are update every year. You may fetch these data for year 2017 for instance thanks to the following command:

donnees_filosofi <- telechargerDonnees("FILOSOFI_DISP_COM_ENS", date = 2017)

Data on employment

Tax data are very convenient to carry out information on income distribution at municipality level, so are data coming from registers on employment.

Requesting an API REST on the firms' register Sirene

Contributing

As non French-speaking user of Insee's website, you are using data that turn out not to be listed there in the package doremifasol. You may notify the maintainer of this project and even more, could you code in R or not. Please report to the dedicated documentation.