GitHub - nikhil1209ui/movie_recommender: Movie Recommender based on Content based filtering.

Data used : https://www.kaggle.com/datasets/tmdb/tmdb-movie-metadata

Framework used : Streamlit

Movie Recommender System

This project is a movie recommendation system that provides recommendations based on movie similarity using content-based filtering. It involves data preprocessing, feature engineering, vectorization, model building, and deployment using Streamlit for a user-friendly interface.

Workflow:-

Data Ingestion -> Feature Engineering -> Vectorization -> Similarity Calculation-> Model Saving -> Streamlit Interface -> User Interaction -> Recommendation Display

Feature Engineering Flow:-

Raw Data -> Convert JSON Columns -> Concatenate Tags -> Clean Text -> Generate Vectors

Project Structure

Data Preparation: Merging datasets and extracting relevant features.
Feature Engineering: Transforming raw data into meaningful tags.
Vectorization: Converting text data into vectors using CountVectorizer.
Model Building: Computing cosine similarity to measure movie similarity.
Deployment: Building a web interface using Streamlit.

Data Preparation

Two datasets, tmdb_5000_movies.csv and tmdb_5000_credits.csv, are merged on the movie title to consolidate information.
Feature Engineering

2.1 Extracting Key Information:

Several columns contain complex, nested information. To prepare them for analysis, these fields are transformed using helper functions.

Genres and Keywords: Extract genre and keyword names.

Cast: Retrieve up to three main cast members.

Crew: Extract the director's name.

2.2. Text Preprocessing

Text data is tokenized and cleaned by removing spaces and converting to lowercase to ensure uniformity. All tags are combined into a single feature (tags).

Vectorization

The CountVectorizer is used to convert text data into numerical vectors. Stemming with the Porter Stemmer reduces words to their root forms, enhancing the model's ability to recognize similarities.
Model Building

4.1. Calculating Similarity

Cosine similarity is used to find similarities between movies. For a given movie, the function recommend() retrieves the top 5 similar movies based on cosine distances.

4.2. Saving Model Artifacts

The similarity matrix and processed data are saved as pickle files to be loaded in the deployment environment.

Deployment with Streamlit

5.1. Setting Up Streamlit

The web interface, created using Streamlit, provides an interactive selection menu for users to choose a movie and receive recommendations. The movie poster is fetched
using the TMDB API.

5.2. Fetching Movie Posters

The fetch_poster() function uses the TMDB API to retrieve posters of recommended movies.

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
.gitignore		.gitignore
Movies Recommender System.ipynb		Movies Recommender System.ipynb
README.md		README.md
app.py		app.py
appp.py		appp.py
df_dict.pkl		df_dict.pkl
requirements.txt		requirements.txt
similarity_part_0.pkl		similarity_part_0.pkl
similarity_part_1.pkl		similarity_part_1.pkl
similarity_part_10.pkl		similarity_part_10.pkl
similarity_part_2.pkl		similarity_part_2.pkl
similarity_part_3.pkl		similarity_part_3.pkl
similarity_part_4.pkl		similarity_part_4.pkl
similarity_part_5.pkl		similarity_part_5.pkl
similarity_part_6.pkl		similarity_part_6.pkl
similarity_part_7.pkl		similarity_part_7.pkl
similarity_part_8.pkl		similarity_part_8.pkl
similarity_part_9.pkl		similarity_part_9.pkl

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Movie Recommender System

Workflow:-

Feature Engineering Flow:-

Project Structure

Data Preparation

Feature Engineering

Vectorization

Model Building

Deployment with Streamlit

About

Releases

Packages

Languages

nikhil1209ui/movie_recommender

Folders and files

Latest commit

History

Repository files navigation

Movie Recommender System

Workflow:-

Feature Engineering Flow:-

Project Structure

Data Preparation

Feature Engineering

Vectorization

Model Building

Deployment with Streamlit

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages