Skip to content

Latest commit

 

History

History
65 lines (40 loc) · 3.81 KB

README.md

File metadata and controls

65 lines (40 loc) · 3.81 KB

airflow_DA_karpov_courses

Works completed within the Airflow module of the Data Analyst course on the Karpov Courses platform

Задания:

  1. Разбор устройства DAG в Airflow.

Необходимо скопировать DAG из лекции - к себе.

Необходимо выполнить:

  1. Поменять имена dag на уникальные (лучше всего как-то использовать свой логин).

Поставить новую дату начала DAG и новый интервал (все еще должен быть ежедневным)

  1. Удалить таски get_stat и get_stat_com. Вместо них сделать свои собственные, которые считают следующие:
  • Найти топ-10 доменных зон по численности доменов
  • Найти домен с самым длинным именем (если их несколько, то взять только первый в алфавитном порядке)
  • На каком месте находится домен airflow.com?
  1. Финальный таск должен писать в лог результат ответы на вопросы выше

image

Файл с кодом в репозитории

Оценка: 8/8

+2 DAG задан корректно

  1. +2 все ок
  2. +2 все ок
  3. +2 все ок
  1. Создаем свой собственный DAG.

Используем Airflow для решения аналитических задач. Будем использовать следующие данные: https://git.lab.karpov.courses/lab/airflow/-/blob/master/dags/a.batalov/vgsales.csv

Сначала определим год, за какой будем смотреть данные. Сделать это можно так:

  • в питоне выполнить 1994 + hash(f‘{login}') % 23, где {login} - ваш логин (или же папка с дагами)

Дальше нужно составить DAG из нескольких тасок, в результате которого нужно будет найти ответы на следующие вопросы:

  • Какая игра была самой продаваемой в этом году во всем мире?
  • Игры какого жанра были самыми продаваемыми в Европе? Перечислить все, если их несколько
  • На какой платформе было больше всего игр, которые продались более чем миллионным тиражом в Северной Америке? Перечислить все, если их несколько
  • У какого издателя самые высокие средние продажи в Японии? Перечислить все, если их несколько
  • Сколько игр продались лучше в Европе, чем в Японии?

Оформлять DAG можно как угодно, важно чтобы финальный таск писал в лог ответ на каждый вопрос. Ожидается, что в DAG будет 7 тасков. По одному на каждый вопрос, таск с загрузкой данных и финальный таск который собирает все ответы.

image

Файл с кодом в репозитории

Оценка: 12/12

+2 DAG задан корректно

  1. +2 все ок
  2. +2 все ок
  3. +2 все ок
  4. +2 все ок
  5. +2 все ок