Skip to content

Latest commit

 

History

History
42 lines (26 loc) · 2.11 KB

README.md

File metadata and controls

42 lines (26 loc) · 2.11 KB

Решение команды Мисисково на It Purple Hack, кейс Сбера

Команда:

  • Окунев Даниил
  • Зорин Константин
  • Кочян Лев
  • Югай Александр
  • Минина Полина

Результаты

1 место Предсказание оттока клиентов.

Метрики:

  • Best Public score: 0.77508
  • Best Private score: 0.77203

Структура проекта

Проект состоит из следующих основных частей:

  1. analytics - модуль аналитики данных.
  2. feature_extraction_1 - модуль для извлечения признаков (часть 1).
  3. feature_extraction_2 - модуль для извлечения признаков (часть 2).
  4. main - составление и обучение пайплайна

Анализ данных и отбор признаков:

Провели анализ данных. Отобрали признаки по корреляции 95%, выделили категориальные признаки. На основе этих признаков построили модель catboost и отобрали топ90 признаков по важности. Нагенерировали новые фичи, такие как синусы, логирифмы, полиноминальные признаки и произвели повторный отбор. Отбор проводили по feature importance и permutation importance: сначала убрали признаки с нулевой важностью, для отбора финальных признаков использовали forward selection.

Краткое описание пайплайна:

Попробовали Логистическую регрессию, MLP, catboost, xgboost, lightgbm, fttransformer. Лучше всего себя показал пайплайн из Autolnt + DenseNet (LigthAutoML) + bagging catboost (x3).

Функциональная схема пайплайна: