Spaces:

mohbay
/

searchcsv2

Running

mohbay commited on Jul 12

Commit

3ad2b97

verified ·

1 Parent(s): ed06f94

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -51,6 +51,7 @@ def arabic_word_tokenize(text):
     text = re.sub(r'[\u064B-\u065F\u0670]', '', text)
     # Extract only Arabic words (length ≥ 2)
     tokens = re.findall(r'[\u0600-\u06FF]{2,}', text)
     return [t for t in tokens if t not in ARABIC_STOPWORDS]
 def prepare_bm25_corpus(questions):
@@ -71,12 +72,16 @@ bm25_model1 = BM25Okapi(bm25_corpus1)
 bm25_model2 = BM25Okapi(bm25_corpus2)
 bm25_model3 = BM25Okapi(bm25_corpus3)
 print("BM25 models initialized!")
-def compute_bm25_scores(query, bm25_model):
     """Compute BM25 scores for a query"""
     query_tokens = arabic_word_tokenize(query)
     if not query_tokens:
-        return np.zeros(len(bm25_model.corpus))
     scores = bm25_model.get_scores(query_tokens)
     return scores
@@ -133,9 +138,9 @@ def predict(text):
                    util.pytorch_cos_sim(query_embeddinga, embeddingsa3)[0]) / 2
     # BM25 scores
-    bm25_scores1 = compute_bm25_scores(text, bm25_model1)
-    bm25_scores2 = compute_bm25_scores(text, bm25_model2)
-    bm25_scores3 = compute_bm25_scores(text, bm25_model3)
     # Word overlap scores
     word_overlap1 = compute_word_overlap(text, df_questions)

     text = re.sub(r'[\u064B-\u065F\u0670]', '', text)
     # Extract only Arabic words (length ≥ 2)
     tokens = re.findall(r'[\u0600-\u06FF]{2,}', text)
     return [t for t in tokens if t not in ARABIC_STOPWORDS]
 def prepare_bm25_corpus(questions):
 bm25_model2 = BM25Okapi(bm25_corpus2)
 bm25_model3 = BM25Okapi(bm25_corpus3)
 print("BM25 models initialized!")
+corpus_length1 = len(df_questions)
+corpus_length2 = len(df2_questions)
+corpus_length3 = len(df3_questions)
+def compute_bm25_scores(query, bm25_model,corpus_length):
     """Compute BM25 scores for a query"""
     query_tokens = arabic_word_tokenize(query)
     if not query_tokens:
+        return np.zeros(corpus_length)
     scores = bm25_model.get_scores(query_tokens)
     return scores
                    util.pytorch_cos_sim(query_embeddinga, embeddingsa3)[0]) / 2
     # BM25 scores
+    bm25_scores1 = compute_bm25_scores(text, bm25_model1,corpus_length1)
+    bm25_scores2 = compute_bm25_scores(text, bm25_model2,corpus_length2)
+    bm25_scores3 = compute_bm25_scores(text, bm25_model3,corpus_length3)
     # Word overlap scores
     word_overlap1 = compute_word_overlap(text, df_questions)