Bootcamp da DIO(Digital Inovation One) focado em engenharia de dados com cloud, conceitos de big data e criação de soluções em Python promovido pela Cognizant.
-
Nome: Cícero Henrique dos Santos
-
Instituição: DIO - Digital Innovation One
-
Bootcamp realizado em: Ago/2021 - Nov/2021
- Aulas:
- Introdução ao Git e ao GitHub - 5 horas
- Linux: A introdução ao sistema operacional - 10 horas
- Shell script - Manipulando Arquivos - 2 horas
- Fundamentos de Arquitetura de Sistemas - 6 horas
- Arquitetura de Sistemas Avançado - 3 horas
- Introdução a orquestração de contêineres com Docker - 4 horas
- Conceitos e melhores práticas com bancos de dados PostgreSQL - 9 horas
- Introdução ao MongoDB e Bancos de Dados NoSQL - 6 horas
- Explorando o poder do NoSQL com Cassandra e HBase - 4 horas
- Introdução à programação com Python - 8 horas
- Fundamentos de ETL com Python - 5 horas
- Monitoramento de clusters Hadoop de alto nível com HDFS e YARN - 4 horas
- Orquestrando ambientes de Big Data distribuídos com Zookeeper, Yarn e Sqoop - 4 horas
- Como realizar consultas de maneira simples no ambiente complexo de Big Data com Hive e Impala - 4 horas
- Processando grandes conjuntos de dados de forma paralela e distribuída com Spark - 4 horas
- Criando pipelines de dados eficientes com Spark e Python - 4 horas
- Introdução a Engenharia de Dados na AWS - 2 horas
- Introdução a Engenharia de Dados na Azure - 4 horas
- Introdução à Mensageria na Nuvem Com Kafka e Python - 1 hora
- Desafios:
- Projetos:
Náo houve pré requisitos necessário. Apenas planejamento de tempo e vontade em aprender.
Para recebimento do certificado de conclusão, é necessário concluir todas as aulas, desafios e envio dos projetos. Todos estes são mencionados no tópico abaixo.
-
Nesse curso será possível aprender um pouco da história do Git e como ele se tornou essencial para otimizar projetos dos desenvolvedores, além dos seus principais comandos, como funciona a plataforma e como ela pode simplificar o trabalho diário.
-
Aprenda como trabalhar com o sistema operacional Linux, um dos mais utilizados do mundo e muito popular entre os desenvolvedores. Ele pode ser usado em desktops, servidores, smartphones e tablets.
-
Aprenda como manipular os arquivos do ecossistema do linux no terminal, gerencie seus arquivos de maneira profissional e aprenda os principais comandos mais utilizados no terminal.
-
Aprenda nesse curso sobre como funcionam as arquiteturas de softwares, seus conceitos, aplicações e desenvolvimento de operações.
-
Conheça sobre os conceitos da arquitetura de sistemas, aplicações em nuvem e operações em softwares.
-
Nesse curso aprenderemos sobre o Docker, um projeto OpenSource que facilita a criação de ambientes isolados com container.
-
Esse curso ensinará como trabalhar com PostgreSQL, um gerenciador de banco de dados relacional.
-
Neste curso você terá uma introdução aos bancos NoSQL no qual iremos apresentar o que é um banco não relacional, os seus tipos, assim como realizar operações em cada um dos tipos. Por fim, você será apresentado ao MongoDB.
-
Conheça o poder dos Banco de Dados Não Relacionais (NoSQL) no contexto da Engenharia de Dados. Para isso, o expert apresenta os principais conceitos teóricos, além de explorar o Cassandra e HBase na prática, mostrando algumas das possibilidades no uso de bancos NoSQL de forma distribuída.
-
O curso trará todo o embasamento da linguagem Python, quando e onde é mais indicado aplicá-la.
-
Aprenda sobre o processo de Extract Transform and Load (ETL) e como transformar seus dados e deixa-los prontos para seus projetos.
-
Explore o armazenamento de dados em disco por meio do HDFS (Hadoop Distributed File System) e entenda como gerenciar recursos utilizando o YARN (Yet Another Resource Negotiator). Com isso, você se familiariza com duas das principais ferramentas de um ecossistema Hadoop, com ênfase no monitoramento de clusters.
-
Explore algumas das principais ferramentas relacionadas à plataforma Hadoop. Nesse contexto, aprenda mais sobre Zookeeper para gerenciar sistemas distribuídos e Sqoop para transferir informações entre bancos de dados relacionais. Além disso, conheça o YARN (Yet Another Resource Negotiator), um elemento central da arquitetura do Hadoop para o gerenciamento de recursos.
-
✅Como realizar consultas de maneira simples no ambiente complexo de Big Data com Hive e Impala - 4 horas
Abstraia o armazenamento e execução de consultas a bancos de dados relacionais (SQL) em ambientes Hadoop. Nesse contexto, o expert apresenta na prática as ferramentas Apache Hive e Apache Impala.
-
Expanda o seu conhecimento sobre o Apache Spark, uma das ferramentas de Big Data para o processamento de grandes conjuntos de dados mais utilizada em grandes projetos. Nesse contexto, o expert apresenta desde os conceitos iniciais até a aplicação prática com ênfase em comandos SparkSQL.
-
Eleve seus conhecimentos com Spark e Python (PySpark) para processar grandes quantidades de dados, explorando o conceito de streaming em tempo real. Além disso, conheça boas práticas para aproveitar ao máximo os dados do seu domínio de aplicação.
-
Conheça algumas das principais ferramentas para Engenharia de Dados disponíveis na Amazon Web Services (AWS). Nesse contexto, o expert explora os conceitos de ingestão, transformação e análise de dados em uma abordagem totalmente prática.
-
Conheça algumas das principais ferramentas para Engenharia de Dados disponíveis na Azure, a plataforma de computação em nuvem da Microsoft. Nesse contexto, o expert explora os conceitos de ingestão, transformação e análise de dados da teoria à pratica.
-
Aprenda um pouco sobre uma das arquiteturas mais utilizadas atualmente, a orientada a eventos. Para isso, explore o Kafka na nuvem usando o CloudKarafka e a linguagem de programação Python.
-
Nesse desafio de codificação você irá praticar através do desenvolvimento de algoritmos os conceitos de pensamento computacional apresentados nas aulas e exercícios anteriores.
-
Nesse desafio de codificação você irá praticar através do desenvolvimento de algoritmos os conceitos de pensamento computacional apresentados nas aulas e exercícios anteriores.
-
Neste Labs será apresentada a biblioteca Pandas, uma biblioteca Python de código aberto para análise de dados. Ela dá ao Python a capacidade de trabalhar com dados do tipo planilha, permitindo carregar, manipular e combinar dados rapidamente, entre outras funções.
-
Sua missão será criar um ecossistema de Big Data usando o Google Cloud Platform (GCP). Para isso, o expert te ensinará a configurar o Google Cloud Dataproc, um Hadoop totalmente gerenciado, usando seus créditos gratuitos da GCP.
-
Com base no repositório disponibilizado pelo expert, te desafiamos a replicar e, porque não, melhorar o algoritmo de extração/contabilização de palavras. Para isso, você pode ordenar as palavras por ocorrência e não por ordem alfabética (apresentando as mais citadas no texto com prioridade), por exemplo. Sinta-se à vontade para evoluir o algoritmo de outras formas.