Spaces:

athulnambiar
/

resume_analyser

Running

App Files Files Community

athulnambiar commited on Sep 25, 2024

Commit

af2aec4

verified ·

1 Parent(s): 6938be6

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -12

app.py CHANGED Viewed

@@ -1,7 +1,9 @@
 import streamlit as st
 import pandas as pd
 from sklearn.feature_extraction.text import TfidfVectorizer
-from sklearn.metrics.pairwise import cosine_similarity
 import re
 from PyPDF2 import PdfReader
@@ -22,35 +24,44 @@ def clean_text(text):
     text = re.sub(r'\W', ' ', text)
     return text.lower()
-def calculate_cosine_similarity(resumes, keywords):
     tfidf_vectorizer = TfidfVectorizer()
     tfidf_matrix = tfidf_vectorizer.fit_transform(resumes + [keywords])
-    cosine_sim = cosine_similarity(tfidf_matrix[-1], tfidf_matrix[:-1])
-    return cosine_sim.flatten()
 st.title("Resume Analyzer")
 st.sidebar.subheader("Enter Keywords and Priority")
 data = pd.DataFrame({
     'Keyword': ['']*10,
     'Priority': ['']*10
 })
 keywords_df = st.sidebar.data_editor(data, num_rows="dynamic", key="keyword_table")
 if not keywords_df['Keyword'].isnull().all():
     keywords_combined = " ".join(keywords_df.apply(lambda row: f"{row['Keyword']} " * int(row['Priority']) if row['Priority'].isdigit() else row['Keyword'], axis=1))
     st.subheader("Upload up to 5 resumes (PDF or Text files)")
     uploaded_files = st.file_uploader("Choose Resume Files", accept_multiple_files=True, type=["txt", "pdf"])
     if len(uploaded_files) > 0 and keywords_combined:
         with st.spinner("Analyzing Resumes..."):
             resumes = []
             for file in uploaded_files:
                 try:
                     resume_text = extract_text_from_file(file)
                     clean_resume = clean_text(resume_text)
                     resumes.append(clean_resume)
@@ -59,13 +70,26 @@ if not keywords_df['Keyword'].isnull().all():
             clean_keywords = clean_text(keywords_combined)
-            scores = calculate_cosine_similarity(resumes, clean_keywords)
             st.subheader("Resume Analysis Results")
             results_df = pd.DataFrame({
                 'Resume': [file.name for file in uploaded_files],
-                'Similarity Score': scores
             })
             st.dataframe(results_df)
 else:
-    st.info("Please upload resumes and enter keywords with priority.")

 import streamlit as st
 import pandas as pd
+import numpy as np
 from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.metrics.pairwise import cosine_similarity, euclidean_distances
+from sklearn.preprocessing import MinMaxScaler
 import re
 from PyPDF2 import PdfReader
     text = re.sub(r'\W', ' ', text)
     return text.lower()
+def calculate_similarity_metrics(resumes, keywords):
     tfidf_vectorizer = TfidfVectorizer()
     tfidf_matrix = tfidf_vectorizer.fit_transform(resumes + [keywords])
+    cosine_sim = cosine_similarity(tfidf_matrix[-1], tfidf_matrix[:-1]).flatten()
+    def jaccard_similarity(doc1, doc2):
+        set1 = set(doc1.split())
+        set2 = set(doc2.split())
+        return len(set1.intersection(set2)) / len(set1.union(set2))
+    jaccard_sim = [jaccard_similarity(keywords, resume) for resume in resumes]
+    euclidean_dist = euclidean_distances(tfidf_matrix[-1], tfidf_matrix[:-1]).flatten()
+    euclidean_sim = 1 / (1 + euclidean_dist)
+    return cosine_sim, jaccard_sim, euclidean_sim
 st.title("Resume Analyzer")
 st.sidebar.subheader("Enter Keywords and Priority")
 data = pd.DataFrame({
     'Keyword': ['']*10,
     'Priority': ['']*10
 })
 keywords_df = st.sidebar.data_editor(data, num_rows="dynamic", key="keyword_table")
 if not keywords_df['Keyword'].isnull().all():
     keywords_combined = " ".join(keywords_df.apply(lambda row: f"{row['Keyword']} " * int(row['Priority']) if row['Priority'].isdigit() else row['Keyword'], axis=1))
     st.subheader("Upload up to 5 resumes (PDF or Text files)")
     uploaded_files = st.file_uploader("Choose Resume Files", accept_multiple_files=True, type=["txt", "pdf"])
     if len(uploaded_files) > 0 and keywords_combined:
         with st.spinner("Analyzing Resumes..."):
             resumes = []
             for file in uploaded_files:
                 try:
                     resume_text = extract_text_from_file(file)
                     clean_resume = clean_text(resume_text)
                     resumes.append(clean_resume)
             clean_keywords = clean_text(keywords_combined)
+            cosine_scores, jaccard_scores, euclidean_scores = calculate_similarity_metrics(resumes, clean_keywords)
             st.subheader("Resume Analysis Results")
             results_df = pd.DataFrame({
                 'Resume': [file.name for file in uploaded_files],
+                'Cosine Similarity': cosine_scores,
+                'Jaccard Index': jaccard_scores,
+                'Euclidean Similarity': euclidean_scores
             })
+            scaler = MinMaxScaler()
+            normalized_scores = scaler.fit_transform(results_df[['Cosine Similarity', 'Jaccard Index', 'Euclidean Similarity']])
+            overall_scores = np.mean(normalized_scores, axis=1)
+            results_df['Overall Score'] = overall_scores
+            results_df['Rank'] = results_df['Overall Score'].rank(ascending=False, method='min').astype(int)
+            results_df = results_df.sort_values('Rank')
             st.dataframe(results_df)
 else:
+    st.info("Please upload resumes and enter keywords with priority.")