Skip to content

povstenko/kyivstar-bigdata-4

Repository files navigation

Kyivstar Big Data

Kyivstar Big Data School 2'nd stage of selection task

Big Data School Page

Перевіряємо, що було завантажено і навіщо.

Архів містить 4 файли:

  • tabular_data.csv
  • hashed_data.csv
  • train_target.csv
  • test_target.csv

Для чого вони?

Ці файли допоможуть вирішити аналітичну задачу. Необхідно побудувати модель, що виявлятиме сегмент батьків серед абонентів ПрАТ «Київстар».

Це задача бінарної класифікації:
«1» – в абонента є діти, віком від 0 до 14 років (і він належить до сегмента батьків);
«0» – в абонента немає дітей даного віку (і він не у сегменті батьків).
Файли tabular_data.csv і hashed_data.csv ̶ тут описові характеристики щодо 4871 абонента («ID» – це ідентифікатор абонента).
Файл train_target.csv ̶ це дані щодо цільової мітки (чи належить абонент до сегмента батьків).
Файл test_target.csv ̶ це список абонентів, за якими ми й будемо оцінювати якість ваших моделей.

А тепер детальніше:

  • Файл tabular_data.csv містить числові дані щодо активності абонента протягом трьох періодів.
    • Period – номер періоду (періоди послідовні, 1 – найдавніший);
    • ID – ідентифікатор абонента;
    • V1 – V43 – дані щодо активності абонента протягом періоду.
  • Файл hashed_data.csv – тут набір захешованих значень однієї категоріальної змінної для абонента.
    • ID – ідентифікатор абонента;
    • HASH – хеш від значення категоріальної змінної.
  • Файл train_target.csv – тут дані з цільовою міткою.
    • ID – ідентифікатор абонента;
    • TARGET – значення цільової мітки (1 – належить до сегмента батьків, 0 – не належить до сегмента батьків).
  • Файл test_target.csv – список абонентів, яким потрібно зробити передбачення за допомогою ваших моделей.
    • ID – ідентифікатор абонента;
    • SCORE – ймовірність того, що абонент належить до сегмента батьків (класу «1»). Цю імовірність визначає ваша модель

До речі, моделі ми будемо оцінювати за такою метрикою – ROC-AUC.

У чому ж завдання?

Потрібно побудувати модель на абонентах, цільова мітка по яких міститься у файлі train_target.

Для цього вам необхідно використати дані з файлів tabular_data та hashed_data. Після цього, використовуючи вашу модель, потрібно для абонентів з файлу test_target оцінити SCORE – ймовірність того, що абонент відноситься до сегменту батьків. Зверніть увагу, що необхідно спрогнозувати факт відношення до сегменту батьків, без прив'язки до періоду.

Оформлення рішення – зберігаємо результати

Зберігаємо передбачене значення SCORE для тестової вибірки у файл MoyePrizvyshcheMoyeImya_test.txt в такому ж форматі, як у файлі PetrenkoPetro_test.txt, де MoyePrizvyshcheMoyeImya = ваше прізвище і ваше ім'я.

Ми хочемо, щоб ви назвали свій файл унікально, про всяк випадок :)

Оформлення рішення – зберігаємо код

Зберігаємо код програми в файл MoyePrizvyshcheMoyeImyaPROGRAM.? Залежно від мови програмування, у файлі буде відповідне розширення: .R, або .py або .txt або ще яке-небудь.

Наприклад:

  • MoyePrizvyshcheMoyeImyaPROGRAM.R,
  • MoyePrizvyshcheMoyeImyaPROGRAM.py,
  • MoyePrizvyshcheMoyeImyaPROGRAM.txt і т.д.

Надсилаємо рішення

Готове рішення (файли з результатом та кодом) завантажуємо одним архівом у форматах .zip або .rar у спеціальну форму на сайті на сайті.

Чекаємо на результати

Тепер можна відпочивати і чекати від нас листа :)

Що буде в листі?

За результатами перевірки завдання вам може бути запропоновано пройти очну співбесіду.

Лише після проведення етапу співбесід будуть розіслані остаточні відповіді – про зарахування до школи чи відмову.

  • Орієнтовна дата розсилки листів для співбесіди – 5 листопада.
  • Дати проведення співбесід – 6-9 листопада.

Тож усі відповіді ви отримаєте до 13 листопада.

Бажаємо гарного і творчого настрою та з нетерпінням чекаємо на ваші результати!

Залишаймось на зв’язку,
Big Data School від Київстар.

About

🌟 Kyivstar Big Data School 2'nd stage of the selection task

Topics

Resources

Stars

Watchers

Forks