Spaces:

mohbay
/

searchcsv2

Running

App Files Files

xet

Community

mohbay commited on Jun 27

Commit

2e553d1

verified ·

1 Parent(s): fbd82e3

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -4

app.py CHANGED Viewed

@@ -120,13 +120,14 @@ df = pd.read_csv("cleaned1.csv")
 df2 = pd.read_csv("cleaned2.csv")
 embeddings = torch.load("embeddings1.pt")
 embeddings2 = torch.load("embeddings2.pt")
 # Pre-extract DataFrame columns to avoid repeated iloc calls
 df_questions = df["question"].values
 df_links = df["link"].values
 df2_questions = df2["question"].values
 df2_links = df2["link"].values
 def predict(text):
     if not text or text.strip() == "":
         return "No query provided"
@@ -136,17 +137,20 @@ def predict(text):
     # Compute similarity scores
     sim_scores1 = util.pytorch_cos_sim(query_embedding, embeddings)[0]
     sim_scores2 = util.pytorch_cos_sim(query_embedding, embeddings2)[0]
     # Get top 3 values and indices in one call
     top3_scores1, top3_idx1 = sim_scores1.topk(3)
     top3_scores2, top3_idx2 = sim_scores2.topk(3)
     # Convert to CPU once
     top3_idx1_cpu = top3_idx1.cpu().numpy()
     top3_idx2_cpu = top3_idx2.cpu().numpy()
     top3_scores1_cpu = top3_scores1.cpu().numpy()
     top3_scores2_cpu = top3_scores2.cpu().numpy()
     # Prepare results using pre-extracted arrays
     results = {
         "top1": [
@@ -165,6 +169,14 @@ def predict(text):
             }
             for idx, score in zip(top3_idx2_cpu, top3_scores2_cpu)
         ]
     }
     return results

 df2 = pd.read_csv("cleaned2.csv")
 embeddings = torch.load("embeddings1.pt")
 embeddings2 = torch.load("embeddings2.pt")
+embeddings3 = torch.load("embeddings3.pt")
 # Pre-extract DataFrame columns to avoid repeated iloc calls
 df_questions = df["question"].values
 df_links = df["link"].values
 df2_questions = df2["question"].values
 df2_links = df2["link"].values
+df3_questions = df3["question"].values
+df3_links = df3["link"].values
 def predict(text):
     if not text or text.strip() == "":
         return "No query provided"
     # Compute similarity scores
     sim_scores1 = util.pytorch_cos_sim(query_embedding, embeddings)[0]
     sim_scores2 = util.pytorch_cos_sim(query_embedding, embeddings2)[0]
+    sim_scores3 = util.pytorch_cos_sim(query_embedding, embeddings3)[0]
     # Get top 3 values and indices in one call
     top3_scores1, top3_idx1 = sim_scores1.topk(3)
     top3_scores2, top3_idx2 = sim_scores2.topk(3)
+    top3_scores3, top3_idx3 = sim_scores3.topk(3)
     # Convert to CPU once
     top3_idx1_cpu = top3_idx1.cpu().numpy()
     top3_idx2_cpu = top3_idx2.cpu().numpy()
+    top3_idx3_cpu = top3_idx3.cpu().numpy()
     top3_scores1_cpu = top3_scores1.cpu().numpy()
     top3_scores2_cpu = top3_scores2.cpu().numpy()
+    top3_scores3_cpu = top3_scores3.cpu().numpy()
     # Prepare results using pre-extracted arrays
     results = {
         "top1": [
             }
             for idx, score in zip(top3_idx2_cpu, top3_scores2_cpu)
         ]
+        "top3": [
+            {
+                "question": df3_questions[idx],
+                "link": df3_links[idx],
+                "score": float(score)
+            }
+            for idx, score in zip(top3_idx3_cpu, top3_scores3_cpu)
+        ]
     }
     return results