Цель проекта: провести анализ данных, размещенных на сайте VGChartz.com, на их основе обучить модель, предсказывающую количество проданных копий видеоигры.
Задачи проекта:
- Собрать и систематизировать данные, размещенные на сайте VGChartz.com.
- Предварительно обработать и провести разведочный анализ данных.
- Обучить модель, выработать систему по оценки её эффективности.
- Создать веб-сервис, способный обрабатывать запросы пользователя.
№ | Название этапа | Описание этапа | Инструменты |
---|---|---|---|
1 | Сбор и систематизация данных | Написание программы, осуществляющей сбор и систематизацию данных с сайта VGChartz.com. Сбор и систематизация данных. |
|
2 | Разведочный анализ данных | Анализ основных свойств данных, выявление распределений, общих зависимостей и аномалий с помощью инструментов визуализации. |
|
3 | Обучение модели | На основе предварительно обработанных данных, обучение модели, предсказывающей количество проданных копий видеоигры. Выработка системы по оценке эффективности модели. |
|
4 | Создание веб-сервиса | Интеграция модели в веб-сервис. |
|
- exploring.ipynb - предварительная обработка и проведение разведочного анализа данных.
- training.ipynb - обучение модели, выработка системы по оценки её эффективности.
Набор данных размещен на сайте kaggle.com, последнюю версию набора данных вы можете найти там.
- Начало работы.
- Структура проекта.
- Описание данных.
- Получение данных.
- Предварительная обработка данных.
- Тренировка и оценка моделей.
- Запуск и контейнеризация приложения.
Наилучшей предсказательной способностью обладает модель XGBRegressor. На тестовых данных удалось достичь метрики RMSE менее 0.1127 (мл. копий). Присутствует гетероскедастичность остатков.
Кривые обучения показывают, что признак переобучения модели отсутствует. Добавление новых данных вероятнее всего не сильно улучшит предсказательную способность модели При добавлении новых данных время обучения и время предсказания возрастают линейно.
По сравнению с простой эмпирической моделью, XGBRegressor намного лучше прогнозирует количество проданных копий видеоигр.
Поиск оптимальных гиперпараметров осуществлялся параллельно в 4 исследованиях с использованием алгоритма TPE (древовидной оценки Парцена) для 300 испытаний.
Распространяется по лицензии GNU General Public License v3.0. См. LICENSE для получения дополнительной информации.