Skip to content

Разработка программы по сбору и систематизации данных о более 50 тыс. видеоиграх с сайта VGChartz.com. Анализ данных. Решение задачи регрессии. Оценка моделей c использованием показателей: RMSE, масштабируемости и гетероскедастичности остатков. Интеграция модели в web-сервис.

License

Notifications You must be signed in to change notification settings

GSimonX37/VGChartz

Repository files navigation

VGChartz

Цель и задачи проекта

Цель проекта: провести анализ данных, размещенных на сайте VGChartz.com, на их основе обучить модель, предсказывающую количество проданных копий видеоигры.

Задачи проекта:

  1. Собрать и систематизировать данные, размещенные на сайте VGChartz.com.
  2. Предварительно обработать и провести разведочный анализ данных.
  3. Обучить модель, выработать систему по оценки её эффективности.
  4. Создать веб-сервис, способный обрабатывать запросы пользователя.

Этапы проекта

Название этапа Описание этапа Инструменты
1 Сбор и систематизация данных Написание программы, осуществляющей сбор и систематизацию данных с сайта VGChartz.com. Сбор и систематизация данных.
  • AIOHTTP
  • BeautifulSoup4
2 Разведочный анализ данных Анализ основных свойств данных, выявление распределений, общих зависимостей и аномалий с помощью инструментов визуализации.
  • Jupyter
  • Matplotlib
  • NumPy
  • Pandas
  • Seaborn
3 Обучение модели На основе предварительно обработанных данных, обучение модели, предсказывающей количество проданных копий видеоигры. Выработка системы по оценке эффективности модели.
  • Jupyter
  • NumPy
  • Pandas
  • Seaborn
  • Scikit-learn
  • LightGBM
  • XGBoost
  • Optuna
4 Создание веб-сервиса Интеграция модели в веб-сервис.
  • FastAPI
  • Pandas
  • Uvicorn
  • Docker

Блокноты

  1. exploring.ipynb - предварительная обработка и проведение разведочного анализа данных.
  2. training.ipynb - обучение модели, выработка системы по оценки её эффективности.

Набор данных

Набор данных размещен на сайте kaggle.com, последнюю версию набора данных вы можете найти там.

Документация

  1. Начало работы.
  2. Структура проекта.
  3. Описание данных.
  4. Получение данных.
  5. Предварительная обработка данных.
  6. Тренировка и оценка моделей.
  7. Запуск и контейнеризация приложения.

Результаты

Наилучшей предсказательной способностью обладает модель XGBRegressor. На тестовых данных удалось достичь метрики RMSE менее 0.1127 (мл. копий). Присутствует гетероскедастичность остатков.

metrics

Кривые обучения показывают, что признак переобучения модели отсутствует. Добавление новых данных вероятнее всего не сильно улучшит предсказательную способность модели При добавлении новых данных время обучения и время предсказания возрастают линейно.

scalability

По сравнению с простой эмпирической моделью, XGBRegressor намного лучше прогнозирует количество проданных копий видеоигр.

dummy

Поиск оптимальных гиперпараметров осуществлялся параллельно в 4 исследованиях с использованием алгоритма TPE (древовидной оценки Парцена) для 300 испытаний.

studies

Лицензия

Распространяется по лицензии GNU General Public License v3.0. См. LICENSE для получения дополнительной информации.

About

Разработка программы по сбору и систематизации данных о более 50 тыс. видеоиграх с сайта VGChartz.com. Анализ данных. Решение задачи регрессии. Оценка моделей c использованием показателей: RMSE, масштабируемости и гетероскедастичности остатков. Интеграция модели в web-сервис.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published