Работа была выполнена с помощью Jupyter Notebook
Слово purple в имени репозитория нужно лишь как отличительная черта этого репозитория от остальных, в будующем возможных, репозиториев по machine learning.
- Построить распределение жанров по рейтингу, прибыльности, лайкам
- Найти топ 20 связок (если такие есть) актер-режиссер, которые дают больше денег в прокате
- Указать, фильмы из какой страны имеют лучший средний рейтинг. Проанализировать ответ и аргументировать вердикт
- Какой сюжет в среднем содержат фильмы жанра драма (plot_keywords). Есть ли у этих фильмов общий сюжетный ход.
- Влияет ли возрастной рейтинг на бюджет фильма
- Самое интересное - я целенаправленно внес некоторые некорректные данные (несуществующий фильм или фильмы или фичи) - надо его (их) найти. НЕ ВРУЧНУЮ. Можно вывести все плохие фильмы в виде списка, а потом удалить из датасета. То же самое с фичей (фичами). Более качественно очищенный датасет дает более качественный результат модели. После очистки датасета провести вышеперечисленные пункты еще раз, сравнить результаты в зависимости от кол-ва найденных фильмов. Точное число испорченных лично мною образцов (ячеек / строк / столбцов).
- Name: Evgeniy Kiprenko
- Email: zhenyakiprenko@gmail.com