Importation des statistiques sur les demandeurs d'emploi de l'API France Travail #409

calummackervoy · 2025-02-20T15:52:16Z

**Carte Notion : ** https://www.notion.so/gip-inclusion/API-FT-Se-brancher-l-API-demandeurs-d-emploi-1765f321b60480e68694edeee2d710f3

Pourquoi ?

Hebdomanaire, on recherche des nouvelles depuis l'API FT et on stocke les nouvelles données disponibles dans un table SQL, organisé par caracteristique, activité, période et territoire.

Checks

J'ai lancé le modèle ou seed sur un dump local (si pertinent)
J'ai ajouté des tests à mon code Python, ou des assertions DBT sur le modèle SQL
J'ai documenté ce modèle voire certains de ses champs (usage métier, tableau de bord, etc)

The data is organized into one table, by period, territory, activity and charactertistic

calummackervoy · 2025-02-20T15:55:13Z

dags/common/france_travail/api.py

+    # Table configuration
+    # Columns defined in the main body of the request
+    shared_columns = [
+        "codeTypeTerritoire",
+        "codeTerritoire",
+        "codePeriode",
+        "libTerritoire",
+        "codeTypeActivite",
+        "codeActivite",
+        "libActivite",
+        "codeNomenclature",
+        "libNomenclature",
+        "codeTypePeriode",
+        "libPeriode",
+        "datMaj",
+    ]
+    # Columns defined on each characteristic (row) of the table
+    characteristic_columns = [
+        # Part of the composite primary key
+        "codeCaract",
+        "codeTypeCaract",
+        # Other fields
+        "libCaract",
+        "nombre",
+        "pourcentage",
+    ]


Je pense qu'il est au bon endroit, car c'est la configuration par rapport au structure du API

Du coup on reçoit les données sous la forme :

{ // Columns defined in the main body of the request "codeTypeTerritoire": "DEP", // Columns defined on each characteristic (row) of the table "listeValeursParPeriode": [ { "codeCaract": "AGE1", ... }, { "codeCaract": "AGE1", ... } }

Devrais-je changer la structure ici, ou eteindre le commentaire pour que c'est plus maintainable ?

calummackervoy · 2025-02-20T15:56:56Z

dags/common/france_travail/api.py

+    # If a log is present, we make the assumptions that
+    # - the DAG has run successfully since the last quarter
+    # - the data we have for previous quarters don't need to be updated
+    # - the most recently updated quarter is the only one we are missing


Ça vaut le coup d’ajouter une SELECT DISTINCT “codePeriode” FROM france_travail.demandeurs_a; afin de signaler s’il y a un trou ? (par example si un jour FT téléverse plusieurs trimestres au même temps)

Oui, car ça permet aussi de gérer le cas où "the DAG has run successfully since the last quarter" est faux :).

calummackervoy · 2025-02-20T15:58:06Z

dags/common/france_travail/api.py

+    # We log which quarters have already been accessed by previous executions of this task
+    # If this cache is empty, we'll pull everything available from the API
+    logged_sessions_by_territory = json.loads(Variable.get("FT_INFORMATION_TERRITOIRE_PERIOD_LOG", "{}"))


Ça fait une différence 😁

calummackervoy · 2025-02-20T15:59:10Z

dbt/models/_sources.yml

+  - name: france_travail_marche_travail
+    schema: france_travail
+    description: >
+      Nombre et % de demandeurs par catégories x caractéristiques, % par activités (Rome, Compétence), par territoire.
+    tables:
+     - name: job_seeker_stats
+       description: >
+         Table qui stocke des statistiques sur les chercheurs d'emploi du API France Travail. Les statistiques sont organisées
+         par territoire, characteristique, activité et période, selon le schema du API.


Ces informations sont utiles dans le fichier dbt/models/_sources.yml?

De mémoire c'est pour dbt doc, donc oui c'est utile mais après ce n'est peut-être pas utilisé 😁

rsebille

Je n'ai pas lancé le DAG pour le moment puisque on n'a pas de credentials partagés, mais j'ai bien vu la note dans le ticket notion donc je pense qu'on va créer un tech.pilotage@, ça devrais suffire ou il faut autre chose à ton avis ?

dag-variables.json

dags/common/france_travail/api.py

rsebille · 2025-03-03T15:17:13Z

dags/common/france_travail/api.py

+FT_API_BASE_URL = "https://api.francetravail.io/partenaire/stats-offres-demandes-emploi/v1"
+
+
+Territory = namedtuple("Territory", ["type", "code"])


Je pense qu'ici tu pourrais faire une dataclass car automatiquement tu auras quelque chose d'utilisable pour les log sans avoir à le faire toi même avec %s (%s) :

In [17]: @dataclasses.dataclass ...: class Territory: ...: type: str ...: code: str ...: In [18]: str(Territory("DEP", "75")) Out[18]: "Territory(type='DEP', code='75')"

rsebille · 2025-03-03T15:26:21Z

dags/common/france_travail/models.py

+    codeCaract = Column(String, primary_key=True)
+    codeNomenclature = Column(String, primary_key=True)
+    codePeriode = Column(String, primary_key=True)
+    codeTerritoire = Column(String, primary_key=True)
+    codeTypeCaract = Column(String, primary_key=True)
+    codeTypeTerritoire = Column(String, primary_key=True)


Sauf si il y a une raison précise c'est mieux de garder les champs associés côte à côte :

Suggested change

codeCaract = Column(String, primary_key=True)

codeNomenclature = Column(String, primary_key=True)

codePeriode = Column(String, primary_key=True)

codeTerritoire = Column(String, primary_key=True)

codeTypeCaract = Column(String, primary_key=True)

codeTypeTerritoire = Column(String, primary_key=True)

codeCaract = Column(String, primary_key=True)

codeTypeCaract = Column(String, primary_key=True)

codeNomenclature = Column(String, primary_key=True)

codePeriode = Column(String, primary_key=True)

codeTerritoire = Column(String, primary_key=True)

codeTypeTerritoire = Column(String, primary_key=True)

Et pour tout ce qui est clés primaire, clés unique, ou indexe c'est toujours bien de lister les champs dans l'ordre où on va drill down [1], ce qui si j'ai bien compris devrais donner quelque chose comme ceci :

Suggested change

codeCaract = Column(String, primary_key=True)

codeNomenclature = Column(String, primary_key=True)

codePeriode = Column(String, primary_key=True)

codeTerritoire = Column(String, primary_key=True)

codeTypeCaract = Column(String, primary_key=True)

codeTypeTerritoire = Column(String, primary_key=True)

codeNomenclature = Column(String, primary_key=True)

codeTypeCaract = Column(String, primary_key=True)

codeCaract = Column(String, primary_key=True)

codeTypeTerritoire = Column(String, primary_key=True)

codeTerritoire = Column(String, primary_key=True)

codePeriode = Column(String, primary_key=True)

[1] https://use-the-index-luke.com/sql/where-clause/the-equals-operator/concatenated-keys

C'est une bonne astuce, merci pour le lien

Côté performance je note que chaque fois on lance le DAG, chaque règle va normalement avoir des conflits avec un autre règle 5/6 des colonnes principales. C'est donc garanti qu'on va traverser l'indice entière

L'alternatif pourrait être de créer un nouveau colonne, id non-composite, qui concat ces champs dans un valuer

dags/common/france_travail/models.py

dags/ft_information_territoire.py

rsebille · 2025-03-03T16:20:41Z

dbt/models/_sources.yml

+  - name: france_travail_marche_travail
+    schema: france_travail
+    description: >
+      Nombre et % de demandeurs par catégories x caractéristiques, % par activités (Rome, Compétence), par territoire.
+    tables:
+     - name: job_seeker_stats
+       description: >
+         Table qui stocke des statistiques sur les chercheurs d'emploi du API France Travail. Les statistiques sont organisées
+         par territoire, characteristique, activité et période, selon le schema du API.


De mémoire c'est pour dbt doc, donc oui c'est utile mais après ce n'est peut-être pas utilisé 😁

calummackervoy · 2025-03-04T09:32:46Z

@rsebille tu peux trouver les creds ici : https://github.com/gip-inclusion/itou-secrets/pull/127. Je vais créer un compte partagé et les remplacer

DAG imports data from FT API for jobseeker stats

0260ce3

The data is organized into one table, by period, territory, activity and charactertistic

calummackervoy requested a review from rsebille February 20, 2025 15:52

calummackervoy commented Feb 20, 2025

View reviewed changes

calummackervoy self-assigned this Feb 20, 2025

rsebille reviewed Mar 3, 2025

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Importation des statistiques sur les demandeurs d'emploi de l'API France Travail #409

Importation des statistiques sur les demandeurs d'emploi de l'API France Travail #409

calummackervoy commented Feb 20, 2025

calummackervoy Feb 20, 2025

calummackervoy Feb 20, 2025

rsebille Mar 3, 2025

calummackervoy Feb 20, 2025

calummackervoy Feb 20, 2025

rsebille Mar 3, 2025

rsebille left a comment

rsebille Mar 3, 2025

rsebille Mar 3, 2025

calummackervoy Mar 4, 2025

calummackervoy Mar 4, 2025

rsebille Mar 3, 2025

calummackervoy commented Mar 4, 2025 •

edited

Loading

		FT_API_BASE_URL = "https://api.francetravail.io/partenaire/stats-offres-demandes-emploi/v1"


		Territory = namedtuple("Territory", ["type", "code"])

Importation des statistiques sur les demandeurs d'emploi de l'API France Travail #409

Are you sure you want to change the base?

Importation des statistiques sur les demandeurs d'emploi de l'API France Travail #409

Conversation

calummackervoy commented Feb 20, 2025

Pourquoi ?

Checks

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

rsebille left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

calummackervoy commented Mar 4, 2025 • edited Loading

calummackervoy commented Mar 4, 2025 •

edited

Loading