Ce projet consiste à implémenter une solution ETL (Extract-transform-load) sous Talend Open Studio pour une intégration de différentes sources de données et notamment avec des scripts en java, les taches à réaliser sont :
- Implémenter des jobs
- Réaliser des mapping avec les flux de données
- Orchestrer plusieurs jobs et créations des routines pour transformation de données
- Intégration de deux bases de données : PostgreSQL et Oracle
- Définition des schémas de métadonnées
- Automatisation avec des scripts exécutable
- Gestion des grosses sources de données (Big Data)
- Migration de données à un nouveau système
- Stockage de données dans des entrepôts de données
- Consolidation de données (fusion d'entreprises)
- Synchronisation de données
- Lectures de différents DBs ou fichiers (csv, txt, xlsx, xml ou plat)
- Intégration décisionnelle et opérationnelle
Talend - java - jobs - PostgreSQL - Oracle
Le dossier des fichiers csv, xml, xlsx et txt de notre Dataset se trouve ici
- Pour la base de données PostgreSQL, lancer le script ScriptsBDD.sql pour avoir les quatre tables :
Clients
,Clients_details
,Individus
etIndividus_Details
dans votre serveurlocalhost
- Pour la base de données Oracle, nous créerons les tables avec des jobs
Jobs | Composant_Inputs | Composant_Outputs | Description du job |
---|---|---|---|
Id1 | Fichier_Individus.csv | Individus.xml | Lire un csv et le transformer en xml |
Id2 | Fichier_Individus.csv | Individus_MAJ.csv | Mettre la colonne nom en MAJ |
Id3 | Fichier_Individus.csv & Activite_Individus.txt | Id3IndividuOutput.csv & Id3IndividuOutput.xml | csv + txt to csv & xml. Ajout de la colone type_sport présente dans txt au fichier csv |
Id4 | Data | Data_csv | connexion de type Iterate qui copie (ou déplace) les fichiers .csv du dossier Data et les enregistre dans un sous fichier de csv Data_csv |
Id5 | Id3 | Id4 | Trigger qui se déclenche si le job Id3 est OK pour exécuter le sous-job Id4 |
Id6 | Fichier_Individus.csv | Table Individus de la BD PostgreSQL |
Alimentation de la table BD PostgreSQL Individus à partir du fichier csv Fichier_Individus.csv |
Id7 | clients.csv & SexePersonne.csv & MarqueVoiture.csv | Table ClientsDetails de la BD PostgreSQL |
Jointure entre trois fichiers csv : clients.csv, SexePersonne.csv, MarqueVoiture.csv et Insertion dans la table de la BD PostgreSQL ClientsDetails |
Id8 | Table ClientsDetails de la BD PostgreSQL |
Table ClientsDetails de la BD Oracle |
Copie de la table ClientsDetails de la base de données PostgreSQL à la base de données Oracle |
- Créations et configuration des jobs composée de plusieurs composants reliés par des connexions
- Exécution des jobs et débogage du code
- Transformation sur des fichiers csv, xml, txt et xlsx
- Implémenter des Trigger qui se déclenchent lors d'événements
- Ajout des contextes pour automatiser le travail
- Alimentation des tables de bases de données relationnelles
- Copie des tables entre deux bases de données
- Job Id1 & Id2 :
- Job Id5 (Trigger) :
- Job Id7 (BD PostgreSQL) :
📫 How to reach me: kebiri.isam.dine@gmail.com
🌐 My Portfolio: https://kebiri-isam-dine.github.io/
🔗 Project Link: https://github.com/kebiri-isam-dine/Implementation-d-une-solution-ETL-et-gestion-des-BigData-sous-Talend