Enregistrement des dataframes entre les tâches en table dans une DB spécifique (vs xcom) #1139

kolok · 2024-12-16T07:22:07Z

Description succincte du problème résolu

⚠️ Tâche très embroyonnaire, pas du tout prète pour ne review, même partielle

Arrêter de passer par la table XCOM pour transférer les dataframe entre les tâches:

les xcom ne s'occupe que des métadonnées
les dataframes sont enregistrés en base de données :
- création d'une base de données spécifiques pour ne pas interférer avec les données de django lors de calculs en DB
- les tables sont nommées en utilisant les ID de dag, run et tache
- les tables sont nettoyée régulièrement

A discuter :

Utilisation du même serveur de base de données que la base de données Django
Nommage de table
politique de nettoyage

Tache à suivre :

Transférer les calculs sur la base de données quand c'est possible

Type de changement :

Bug fix
Nouvelle fonctionnalité
Mise à jour de données / DAG
Les changements nécessitent une mise à jour de documentation
Refactoring de code (explication à retrouver dans la description)

Auto-review

Les trucs à faire avant de demander une review :

J'ai bien relu mon code
La CI passe bien
En cas d'ajout de variable d'environnement, j'ai bien mis à jour le .env.template
J'ai ajouté des tests qui couvrent le nouveau code

Comment tester

En local / staging :

…

…cifique (vs xcom)

maxcorbeau · 2025-01-06T10:33:56Z

Contexte: problème soulevé lors de mon audit d'arrivé via Etat de fonctionnement des DAGs au 2024-11-04

https://airflow.apache.org/docs/apache-airflow/stable/core-concepts/xcoms.html

Et en comparant la taille DB avant/après avec la requête suivante:

SELECT
	DATE(timestamp) AS date,
	COUNT(*) AS nombre_entrees,
	ROUND(SUM(pg_column_size(value) / 1024.0 / 1024.0)) AS taille_mb
FROM xcom
GROUP BY 1
ORDER BY 1 DESC

On voit la taille de la table xcom qui explose (178MB de plus le 2024-11-04 avec seulement 18 DAGs lancées):

maxcorbeau

La direction me semble bonne:

On créer un Engine/Variable DB séparés: après libre au gestionnaire d'infra de décider si cela doit être sur une DB logiquement/physiquement séparée, le code donne la flexibilité
On créer des fonctions d'écriture/lecture pour sauvegarder/récupérer les données entres les tâches

Et donc pour la suite je m'attends à ce que:

Les appels XCOM (push, pull) ne contiennent que des pointeurs vers les données, pointeurs fournis (xcom_push) par les tâches en amonts après l'insertion des données, et utilisés par les tâche en aval (xcom_pull) pour aller récupérer les données

J'ai laissé des commentaires sur le nommage car je le trouve en conflit avec la logique, ou alors j'ai pas compris la logique 😄

maxcorbeau · 2025-01-22T07:32:48Z

dags/shared/tasks/database_logic/db_manager.py

+            self.django_conn_id = django_conn_id
+            self.data_conn_id = data_conn_id
+            self.django_engine = self._create_engine(self.django_conn_id)
+            self.data_engine = self._create_engine(self.data_conn_id)


Pourquoi pas un nommage plus hiérarchique avec:

conn_id_django

conn_id_data

engine_django

engine_data

maxcorbeau · 2025-01-22T07:34:50Z

dags/shared/tasks/database_logic/db_manager.py

+        table_name = _table_name(dag_id, dag_run_id, task_id, dataset_name)
+        df.to_sql(table_name, self.data_engine, if_exists="replace", index=False)
+
+    def read_data_xcom(


Je suis confu par le nommage des fonctions: j'ai l'impression que le but est justement de NE PLUS échanger de données par le XCOM (simplement les pointeurs vers ces données) et mais le nom des fonctions indique clairement l'inverse: write_data_xcom et read_data_xcom.

fabienheureux · 2025-01-22T09:50:27Z

dags/shared/tasks/database_logic/db_manager.py

+def _table_name(dag_id: str, dag_run_id: str, task_id: str, dataset_name: str):
+    # dag_run_id remove str before __
+    dag_run_id = dag_run_id.split("__")[1]
+    timestamp = datetime.strptime(dag_run_id, "%Y-%m-%dT%H:%M:%S.%f%z")


Suggested change

timestamp = datetime.strptime(dag_run_id, "%Y-%m-%dT%H:%M:%S.%f%z")

timestamp = datetime.fromisoformat(dag_run_id)

ça fonctionne ça ?

kolok requested a review from a team as a code owner December 16, 2024 07:22

kolok requested review from fabienheureux and maxcorbeau and removed request for a team December 16, 2024 07:22

kolok marked this pull request as draft December 16, 2024 07:22

kolok force-pushed the create_final_actor_reorg branch 2 times, most recently from d2f9675 to bf0f14a Compare December 19, 2024 11:53

Base automatically changed from create_final_actor_reorg to main December 19, 2024 11:57

Enregistrement des dataframe entre les tache en table dans une DB spé…

d97f412

…cifique (vs xcom)

kolok force-pushed the save_data_in_db branch from 72a9c75 to d97f412 Compare December 19, 2024 16:01

maxcorbeau approved these changes Jan 22, 2025

View reviewed changes

fabienheureux reviewed Jan 22, 2025

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Enregistrement des dataframes entre les tâches en table dans une DB spécifique (vs xcom) #1139

Enregistrement des dataframes entre les tâches en table dans une DB spécifique (vs xcom) #1139

kolok commented Dec 16, 2024

maxcorbeau commented Jan 6, 2025

maxcorbeau left a comment

maxcorbeau Jan 22, 2025

maxcorbeau Jan 22, 2025 •

edited

Loading

fabienheureux Jan 22, 2025

	timestamp = datetime.strptime(dag_run_id, "%Y-%m-%dT%H:%M:%S.%f%z")
	timestamp = datetime.fromisoformat(dag_run_id)

Enregistrement des dataframes entre les tâches en table dans une DB spécifique (vs xcom) #1139

Are you sure you want to change the base?

Enregistrement des dataframes entre les tâches en table dans une DB spécifique (vs xcom) #1139

Conversation

kolok commented Dec 16, 2024

Description succincte du problème résolu

Auto-review

Comment tester

maxcorbeau commented Jan 6, 2025

maxcorbeau left a comment

Choose a reason for hiding this comment

maxcorbeau Jan 22, 2025

Choose a reason for hiding this comment

maxcorbeau Jan 22, 2025 • edited Loading

Choose a reason for hiding this comment

fabienheureux Jan 22, 2025

Choose a reason for hiding this comment

maxcorbeau Jan 22, 2025 •

edited

Loading