Spaces:

billusanda007
/

DeepRank

Sleeping

App Files Files Community

billusanda007 commited on Mar 2, 2024

Commit

d8a8115

verified ·

1 Parent(s): 86733d1

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -14

app.py CHANGED Viewed

@@ -14,7 +14,7 @@ from sklearn.preprocessing import LabelEncoder
 def cleanResume(resumeText):
-    # Your existing cleanResume function remains unchanged
     resumeText = re.sub('http\S+\s*', ' ', resumeText)
     resumeText = re.sub('RT|cc', ' ', resumeText)
     resumeText = re.sub('#\S+', '', resumeText)
@@ -25,35 +25,35 @@ def cleanResume(resumeText):
     return resumeText
 def pdf_to_text(file):
-    # Use pdfminer.six to extract text from the PDF file
     text = extract_text(file)
     return text
 def predict_category(resumes_data, selected_category,max_sequence_length):
-    # Load the trained DeepRank model
     model = load_deeprank_model(max_sequence_length)
-    # Process the resumes data
     resumes_df = pd.DataFrame(resumes_data)
     resumes_text = resumes_df['ResumeText'].values
-    # Tokenize the text and convert to sequences
     tokenized_text = tokenizer.texts_to_sequences(resumes_text)
-    # Pad sequences to have the same length
     max_sequence_length = 500  # Assuming maximum sequence length of 500 words
     padded_text = pad_sequences(tokenized_text, maxlen=max_sequence_length)
-    # Make predictions
     predicted_probs = model.predict(padded_text)
-    # Assign probabilities to respective job categories
     for i, category in enumerate(label.classes_):
         resumes_df[category] = predicted_probs[:, i]
     resumes_df_sorted = resumes_df.sort_values(by=selected_category, ascending=False)
-    # Get the ranks for the selected category
     ranks = []
     for rank, (idx, row) in enumerate(resumes_df_sorted.iterrows()):
         rank = rank + 1
@@ -63,9 +63,9 @@ def predict_category(resumes_data, selected_category,max_sequence_length):
     return ranks
 def load_deeprank_model(max_sequence_length):
-    # Load the saved DeepRank model
     model = Sequential()
-    # Add layers to the model (example architecture, adjust as needed)
     model.add(Embedding(input_dim=vocab_size, output_dim=128, input_length=max_sequence_length))
     model.add(Conv1D(filters=128, kernel_size=5, activation='relu'))
     model.add(MaxPooling1D(pool_size=2))
@@ -82,7 +82,7 @@ def main():
     resumes_data = []
     selected_category = ""
-    # Handle multiple file uploads
     files = st.file_uploader("Upload resumes", type=["pdf"], accept_multiple_files=True)
     if files:
         for file in files:
@@ -98,13 +98,13 @@ def main():
             st.write(pd.DataFrame(ranks))
 if __name__ == '__main__':
-    # Load label encoder and tokenizer
     df = pd.read_csv('UpdatedResumeDataSet.csv')
     df['cleaned'] = df['Resume'].apply(lambda x: cleanResume(x))
     label = LabelEncoder()
     df['Category'] = label.fit_transform(df['Category'])
-    # Tokenize text and get vocabulary size and number of classes
     text = df['cleaned'].values
     #text=df['Resume'].values
     tokenizer = Tokenizer()

 def cleanResume(resumeText):
     resumeText = re.sub('http\S+\s*', ' ', resumeText)
     resumeText = re.sub('RT|cc', ' ', resumeText)
     resumeText = re.sub('#\S+', '', resumeText)
     return resumeText
 def pdf_to_text(file):
     text = extract_text(file)
     return text
 def predict_category(resumes_data, selected_category,max_sequence_length):
     model = load_deeprank_model(max_sequence_length)
     resumes_df = pd.DataFrame(resumes_data)
     resumes_text = resumes_df['ResumeText'].values
     tokenized_text = tokenizer.texts_to_sequences(resumes_text)
     max_sequence_length = 500  # Assuming maximum sequence length of 500 words
     padded_text = pad_sequences(tokenized_text, maxlen=max_sequence_length)
     predicted_probs = model.predict(padded_text)
     for i, category in enumerate(label.classes_):
         resumes_df[category] = predicted_probs[:, i]
     resumes_df_sorted = resumes_df.sort_values(by=selected_category, ascending=False)
     ranks = []
     for rank, (idx, row) in enumerate(resumes_df_sorted.iterrows()):
         rank = rank + 1
     return ranks
 def load_deeprank_model(max_sequence_length):
     model = Sequential()
     model.add(Embedding(input_dim=vocab_size, output_dim=128, input_length=max_sequence_length))
     model.add(Conv1D(filters=128, kernel_size=5, activation='relu'))
     model.add(MaxPooling1D(pool_size=2))
     resumes_data = []
     selected_category = ""
     files = st.file_uploader("Upload resumes", type=["pdf"], accept_multiple_files=True)
     if files:
         for file in files:
             st.write(pd.DataFrame(ranks))
 if __name__ == '__main__':
     df = pd.read_csv('UpdatedResumeDataSet.csv')
     df['cleaned'] = df['Resume'].apply(lambda x: cleanResume(x))
     label = LabelEncoder()
     df['Category'] = label.fit_transform(df['Category'])
     text = df['cleaned'].values
     #text=df['Resume'].values
     tokenizer = Tokenizer()