Данная работа получает результат MAPE: 0.1064
Для корректной работы данного ноутбука необходима установка:
!pip install nltk
!pip install seaborn
!pip install plotly.express
!pip install -U scikit-learn
!pip install swifter
Файл applications.py содержит все функции используемые в проекте для обработки данных. Весь код подробно расписан.
В ходе работы была использован парсинг даных с помощью API: OpenCageData
Для работы с данным проектом необходимо скачать папку (Data) с датасетами:
Данные (папка Data) к проекту состоят из трех частей:
- hotels_test (тестовая часть неизменяемая);
- hotels_train (тренировочная часть);
- submission (результативная часть куда записываются окончательные данные).
- api_filtered_data (это датасет с парсенными данным из API).
Примечание: Возможно при работе придется отключить проверку сертификатов (ssl._create_default_https_context = ssl._create_unverified_context).
Разработать модель для предсказания рейтинга гостиниц. Если рейтинг нашей модели сильно отличаются от фактического результата, то, возможно, отель ведёт себя нечестно, и его стоит проверить!
-
постановки задачи
-
исследования данных
-
подготовка и очистках данных
-
проектирование новых признаков
-
кодирование данных
-
отбор признаков
-
подготовка модели
-
mape метрика
-
заключение
-
Решение оформлено только в Jupyter Notebook.
-
Решение оформлено в соответствии с baseline (Kaggle).
-
Каждый расчет выполнен в отдельных ячейках.
-
Код для каждого задания оформлен в одной или нескольких Jupyter-ячейках.
-
В проекте использовались: переменные, основные структуры данных (списки, словари, множества), циклы, функции, библиотеки numpy, pandas, matplotlib, seaborn, plotly, библиотеки nltk, sklearn, requests, re (для регулярных выражений), применен метода для анализа слов, векторизация слов, винсоризация данных, использовался VIF индекс для отбора признаков.
-
При работе с проектом использовалось руководством PEP 8.
Графики содержут:
-
название, отражающее их суть;
-
подписи осей.
Выводы к графикам оформлены в формате Markdown под самим графиком в отдельной ячейке.
Выводы представлены в виде небольших заключений.