Spaces:

chrisaldikaraharja
/

MovieRecommendationEngine

Running

App Files Files Community

chrisaldikaraharja commited on 8 days ago

Commit

01850de

verified ·

1 Parent(s): e4a7fa5

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -31

app.py CHANGED Viewed

@@ -5,31 +5,28 @@ from surprise.model_selection import train_test_split
 from collections import defaultdict
 import kagglehub
-# Step 1: Download the latest version of the dataset and get the path
-path = kagglehub.dataset_download("ashpalsingh1525/imdb-movies-dataset")
-# Step 2: Define the dataset folder path
-dataset_folder = "/home/user/.cache/kagglehub/datasets/ashpalsingh1525/imdb-movies-dataset/versions/1"
-# Step 3: Define the CSV file path (Update if the filename is different)
-dataset_path = f"{dataset_folder}/imdb_movies.csv"
-# Load the dataset
 df = pd.read_csv(dataset_path)
-# Ensure all categorical columns are strings
 categorical_columns = ['genre', 'orig_title', 'orig_lang', 'country', 'crew']
 for col in categorical_columns:
-    df[col] = df[col].astype(str)  # Convert to string explicitly
-# Check unique values in genre column (to ensure it's not numerical)
 if df['genre'].str.isnumeric().all():
     print("Warning: Genre column is numeric. Mapping needed.")
     genre_mapping = {i: f"Genre_{i}" for i in df['genre'].unique()}
     df['genre'] = df['genre'].map(genre_mapping)
-# Prepare dataset for Surprise
 reader = Reader(rating_scale=(df['score'].min(), df['score'].max()))
 data = Dataset.load_from_df(df[['orig_title', 'orig_lang', 'score']], reader)
@@ -38,45 +35,40 @@ trainset, testset = train_test_split(data, test_size=0.2, random_state=42)
 model = SVD(n_factors=50, random_state=42)
 model.fit(trainset)
-# Function to get movie recommendations
 def get_recommendations(selected_movies, genre):
     if not selected_movies:
         return ["Please select at least one movie."]
-    # Filter dataset by genre
     filtered_movies = df[df['genre'] == genre]
-    # Store average scores of all movies
     movie_scores = defaultdict(float)
-    # Predict ratings for all movies in the filtered dataset
     for movie in filtered_movies['orig_title'].unique():
         est_score = model.predict(uid='user', iid=movie).est
         movie_scores[movie] = est_score
-    # Sort movies by predicted score (descending)
     recommended_movies = sorted(movie_scores.items(), key=lambda x: x[1], reverse=True)
-    # Exclude already selected movies
     recommended_movies = [movie for movie, _ in recommended_movies if movie not in selected_movies]
-    return recommended_movies[:5]  # Return top 5 recommendations
-# Streamlit UI
 st.title("🎬 Movie Recommendation System")
 # Genre selection
-selected_genre = st.selectbox("Select a Genre", sorted(df['genre'].unique().tolist()))
-# Get available movies for the selected genre
-movies_in_genre = df[df['genre'] == selected_genre]['orig_title'].unique().tolist()
-# Movie selection
-selected_movies = st.multiselect("Select Up to 3 Movies", movies_in_genre, max_selections=3)
 # Recommendation button
 if st.button("Get Recommendations"):
     recommendations = get_recommendations(selected_movies, selected_genre)
-    st.subheader("Recommended Movies:")
     for movie in recommendations:
-        st.write(f"- {movie}")

 from collections import defaultdict
 import kagglehub
+# Step 1: Download the latest version of the dataset
+dataset_ref = "ashpalsingh1525/imdb-movies-dataset"
+path = kagglehub.download(dataset_ref)
+# Define the dataset path (update filename if needed)
+dataset_path = f"{path}/imdb_movies.csv"
+# Step 2: Load the dataset
 df = pd.read_csv(dataset_path)
+# Ensure categorical columns are strings
 categorical_columns = ['genre', 'orig_title', 'orig_lang', 'country', 'crew']
 for col in categorical_columns:
+    df[col] = df[col].astype(str)
+# Check if genre column needs mapping
 if df['genre'].str.isnumeric().all():
     print("Warning: Genre column is numeric. Mapping needed.")
     genre_mapping = {i: f"Genre_{i}" for i in df['genre'].unique()}
     df['genre'] = df['genre'].map(genre_mapping)
+# Step 3: Prepare dataset for Surprise library
 reader = Reader(rating_scale=(df['score'].min(), df['score'].max()))
 data = Dataset.load_from_df(df[['orig_title', 'orig_lang', 'score']], reader)
 model = SVD(n_factors=50, random_state=42)
 model.fit(trainset)
+# Step 4: Define functions for recommendation
 def get_recommendations(selected_movies, genre):
     if not selected_movies:
         return ["Please select at least one movie."]
     filtered_movies = df[df['genre'] == genre]
     movie_scores = defaultdict(float)
     for movie in filtered_movies['orig_title'].unique():
         est_score = model.predict(uid='user', iid=movie).est
         movie_scores[movie] = est_score
     recommended_movies = sorted(movie_scores.items(), key=lambda x: x[1], reverse=True)
     recommended_movies = [movie for movie, _ in recommended_movies if movie not in selected_movies]
+    return recommended_movies[:5]  # Top 5 recommendations
+def get_movies_by_genre(genre):
+    return df[df['genre'] == genre]['orig_title'].unique().tolist()
+# Step 5: Streamlit UI
 st.title("🎬 Movie Recommendation System")
 # Genre selection
+genre_list = sorted(df['genre'].unique().tolist())
+selected_genre = st.selectbox("Select a Genre", genre_list)
+# Movie selection (dynamically updates based on genre)
+movie_options = get_movies_by_genre(selected_genre)
+selected_movies = st.multiselect("Select Up to 3 Movies", movie_options)
 # Recommendation button
 if st.button("Get Recommendations"):
     recommendations = get_recommendations(selected_movies, selected_genre)
+    st.write("### Recommended Movies:")
     for movie in recommendations:
+        st.write(f"- {movie}")