Projeto do Curso Criando um Ecossistema Hadoop Totalmente Gerenciado com Google Cloud Dataproc do Bootcamp Data Engineer, promovido pela Digital Innovation One.
O desafio consiste em efetuar um processamento de dados utilizando o produto Dataproc do GCP. Esse processamento irá simplesmente efetuar a contagem das palavras de um livro (arquivo de texto) e informar quantas vezes cada palavra aparece no mesmo.
-
Criar um bucket no Cloud Storage
-
Atualizar o arquivo
contador.py
com o nome do Bucket criado nas linhas que contém{SEU_BUCKET}
. -
Fazer o upload dos arquivos
contador.py
elivro.txt
para o bucket criado (instruções abaixo) -
Utilizar o código em um cluster Dataproc, executando um Job do tipo PySpark chamando
gs://{SEU_BUCKET}/contador.py
-
O Job irá gerar uma pasta no bucket chamada
resultado
. Dentro dessa pasta o arquivopart-00000
irá conter a lista de palavras e quantas vezes ela é repetida em todo o livro.
- Criar um arquivo chamado
resultado.txt
. Dentro desse arquivo, colocar as 10 palavras que mais são usadas no livro, de acordo com o resultado do Job. - Inserir os arquivo
resultado.txt
epart-00000
em um repositório.
NOTA: Se o Job mostrar um WARN de Interrupt, basta ignorar. Existe um bug no Hadoop que é conhecido. Isso não impacta no processamento.