Skip to content

AlexanderMeshchaninov/Booking_EDA_Project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Booking EDA Project

Примечание:

Данная работа получает результат MAPE: 0.1064

Для корректной работы данного ноутбука необходима установка:

    !pip install nltk
    !pip install seaborn
    !pip install plotly.express
    !pip install -U scikit-learn
    !pip install swifter

Файл applications.py содержит все функции используемые в проекте для обработки данных. Весь код подробно расписан.

В ходе работы была использован парсинг даных с помощью API: OpenCageData

Для работы с данным проектом необходимо скачать папку (Data) с датасетами:

СКАЧАТЬ ДАТА СЕТ

Данные (папка Data) к проекту состоят из трех частей:

  • hotels_test (тестовая часть неизменяемая);
  • hotels_train (тренировочная часть);
  • submission (результативная часть куда записываются окончательные данные).
  • api_filtered_data (это датасет с парсенными данным из API).

Примечание: Возможно при работе придется отключить проверку сертификатов (ssl._create_default_https_context = ssl._create_unverified_context).

Цель проекта

Разработать модель для предсказания рейтинга гостиниц. Если рейтинг нашей модели сильно отличаются от фактического результата, то, возможно, отель ведёт себя нечестно, и его стоит проверить!

Данный проект состоит из девяти частей:

  1. постановки задачи

  2. исследования данных

  3. подготовка и очистках данных

  4. проектирование новых признаков

  5. кодирование данных

  6. отбор признаков

  7. подготовка модели

  8. mape метрика

  9. заключение

Проект оформлен согласно требованиям:

  • Решение оформлено только в Jupyter Notebook.

  • Решение оформлено в соответствии с baseline (Kaggle).

  • Каждый расчет выполнен в отдельных ячейках.

  • Код для каждого задания оформлен в одной или нескольких Jupyter-ячейках.

  • В проекте использовались: переменные, основные структуры данных (списки, словари, множества), циклы, функции, библиотеки numpy, pandas, matplotlib, seaborn, plotly, библиотеки nltk, sklearn, requests, re (для регулярных выражений), применен метода для анализа слов, векторизация слов, винсоризация данных, использовался VIF индекс для отбора признаков.

  • При работе с проектом использовалось руководством PEP 8.

Графики содержут:

  1. название, отражающее их суть;

  2. подписи осей.

Выводы к графикам оформлены в формате Markdown под самим графиком в отдельной ячейке.

Выводы представлены в виде небольших заключений.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published