https://academy.stepik.org/big-data
Click House
AirFlow
PySpark
SparkML
Hadoop
Исследование данных.
II - Data Engineering
Обработка данных посредством PySpark
(parquet
-файлы) и подготовка их к обучению моделей в виде PySpark
-задачи (PySparkJob.py
).
III - ML Engineering
Cоздание распределённой модели в PySparkML
для предсказания CTR
в виде двух PySpark
задач:
PySparkMLFit.py
- задача, которая должна тренировать модель, подбирать оптимальные гиперпараметры на входящих данных, сохранять ее и производить оценку качества модели, используя RegressionEvaluator и выводя в консоль RMSE модели на основе test датасета.PySparkMLPredict.py
- задача, которая должна загружать модель и строить предсказание над переданными ей данными.
-
Введение в Big Data для Data Science
- Зачем DS знать Big Data?
- Хранение данных
- Обработка данных
- SQL и ClickHouse
-
Hadoop
- Архитектура Hadoop
- HDFS
- MapReduce
- Hive
- Hbase
-
Spark
- Архитектура spark
- Spark Core
- Потоковая обработка данных
-
Workflow
- Управление данными ETL/ELT
- Архитектура хранилищ Data Warehouse vs Data Lake
- Облачные решения
- Apache Airflow
-
SparkML
- Распределенные модели машинного обучения
- Spark ML компоненты и модели
- Поставка моделей
-
BI Tools
- Работа с данными в Superset
- Аналитические агрегаты
-
Проект
В проекте вы будете представлять себя рекламным аналитиком: сначала вы должны исследовать и выкачать данные (ClickHouse), потом обработать их и обучить модель с этими данными (PySpark), а в конце визуализировать выводы и создать отчеты (Superset).