From c6ee555a23cf4217a22cdad5b4c2f464044b04f5 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Jos=C3=A9=20Vitor?= Date: Mon, 13 Dec 2021 09:26:26 -0300 Subject: [PATCH 1/5] feat(main): added initial presentation --- README.md | 20 +++++++++++++++++++- 1 file changed, 19 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index d79cf2d..db59d13 100644 --- a/README.md +++ b/README.md @@ -1,2 +1,20 @@ -# dio-curso-etl +# Fundamentos de ETL com Python 🐍 + Curso oferecido para a DIO sobre ETL utilizando a linguagem Python e as bibliotecas pandas e pandera. + +> ### Objetivo do curso +> Contexto do processo de ETL (Extract, Transform, and Load) +> +> ### Competências atendidas +> - Conhecimento do processo de ETL de ponta-a-ponta +> - Bibliotecas do Python para ETL +> +> ### Pré-requisito +> - Conhecimento da linguagem de programação Python +> +> ### Percurso +> 1. Aula → Introdução ao ETL +> 2. Aula → Projeto ETL - Ambiente e definição +> 3. Aula → Projeto ETL - Desenvolvimento + + From 800a28176ae7ec7b1d917268ca5df51943066f82 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Jos=C3=A9=20Vitor?= Date: Mon, 13 Dec 2021 09:31:47 -0300 Subject: [PATCH 2/5] feat(main): added etl definition --- README.md | 14 ++++++++++++++ 1 file changed, 14 insertions(+) diff --git a/README.md b/README.md index db59d13..c8255df 100644 --- a/README.md +++ b/README.md @@ -18,3 +18,17 @@ Curso oferecido para a DIO sobre ETL utilizando a linguagem Python e as bibliote > 3. Aula → Projeto ETL - Desenvolvimento +## Introdução ao ETL + +### Definição + +

+ etl +

+ +* **Extract** → os dados são extraídos de diferentes fontes de dados +* **Transform** → propagados para a área de preparação de dados, onde são transformados e limpos. +* **Load** → Carregados em outra fonte de dados (data warehouse, data lake, ...) + +O processo de ETL é feito de modo a tornar os **dados íntegros, consistentes, válidos** para que a tomada de decisão final seja adequada e certeira. + From bc7f0b97bafa7218bd5764f3731d86084fd1da21 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Jos=C3=A9=20Vitor?= Date: Mon, 13 Dec 2021 09:55:01 -0300 Subject: [PATCH 3/5] feat(main): added why we need it --- README.md | 9 +++++++++ 1 file changed, 9 insertions(+) diff --git a/README.md b/README.md index c8255df..e7de66a 100644 --- a/README.md +++ b/README.md @@ -32,3 +32,12 @@ Curso oferecido para a DIO sobre ETL utilizando a linguagem Python e as bibliote O processo de ETL é feito de modo a tornar os **dados íntegros, consistentes, válidos** para que a tomada de decisão final seja adequada e certeira. +### Por que precisamos? +Tudo começa a partir da necessidade de tomada de decisão dos gestores organizacionais. + +Como os gestores tomam uma decisão? analisando dados - eles relacionam dados para gerar informação útil a tomada de decisão. + +No entanto, como juntar dados de diferentes fontes de informação? +Relacionar dados de ERP, CRM, sites, planilhas, e de outras fontes, de modo consistente, organizado e confiável para tomar decisão. + +Os dados podem ser extraídos em lotes (Batch) ou em tempo real. E após serem transformados serão carregados na base de dados de consolidação. From db6819fd0ca9d42b9ac3b4253bb83a6ea954db8d Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Jos=C3=A9=20Vitor?= Date: Mon, 13 Dec 2021 10:27:49 -0300 Subject: [PATCH 4/5] feat(main): added process overview --- README.md | 23 +++++++++++++++++++++++ 1 file changed, 23 insertions(+) diff --git a/README.md b/README.md index e7de66a..0e22fdb 100644 --- a/README.md +++ b/README.md @@ -41,3 +41,26 @@ No entanto, como juntar dados de diferentes fontes de informação? Relacionar dados de ERP, CRM, sites, planilhas, e de outras fontes, de modo consistente, organizado e confiável para tomar decisão. Os dados podem ser extraídos em lotes (Batch) ou em tempo real. E após serem transformados serão carregados na base de dados de consolidação. + + +### Visão geral sobre ETL + +Dentro do processo de + +

+ etl process flow +

+ +* Data Sources → as diferentes fontes de dados que armazenam os dados que vão ser extraídos e carregados para dentro do contexto da empresa (Data Warehouse, Data lake, ...) +* Processo maior de ETL → Transformação: + * Data Validation + * Data Cleaning + * Data Transforming + * Data Aggregating + * Data Summarization + * Data Normalization + * Data Loading +* Data flow/Pipeline → segmentação do processo + + + From 1b652fbcfe9194ffd48d0fe5f59255c9700654e1 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Jos=C3=A9=20Vitor?= Date: Mon, 13 Dec 2021 10:39:09 -0300 Subject: [PATCH 5/5] feat(main): added tools and packages --- README.md | 10 ++++++++++ 1 file changed, 10 insertions(+) diff --git a/README.md b/README.md index 0e22fdb..4dfa93b 100644 --- a/README.md +++ b/README.md @@ -62,5 +62,15 @@ Dentro do processo de * Data Loading * Data flow/Pipeline → segmentação do processo +### Ferramentas +#### Para saber mais +* https://airflow.apache.org/ +* https://luigi.readthedocs.io/en/stable/ +* https://www.bonobo-project.org/ +* http://bubbles.databrewery.org/ +* https://petl.readthedocs.io/en/stable/ +* https://pandas.pydata.org/ + +### Referências