Spaces:

senatus-admin
/

senatus-dev

Running

dzenzzz commited on Aug 15

Commit

b019d23

1 Parent(s): 60b73e6

minor change

Files changed (2) hide show

app.py CHANGED Viewed

@@ -2,7 +2,6 @@ import nh3
 from fastapi import FastAPI, Request
 from doc_searcher import DocSearcher
 from doc_searcher_v2 import DocSearcherV2
-from suggestion_searcher import SuggestionSearcher
 from huggingface_hub import login
 from config import HUGGING_FACE_API_KEY, COLLECTION_NAME, API_KEY, COLLECTION_NAME_SUGGESTION
 from fastapi.responses import StreamingResponse
@@ -14,7 +13,6 @@ app = FastAPI()
 doc_searcher = DocSearcher(collection_name=COLLECTION_NAME)
 doc_searcher_v2 = DocSearcherV2(collection_name=COLLECTION_NAME)
-suggestion_searcher = SuggestionSearcher(collection_name=COLLECTION_NAME_SUGGESTION)
 ALLOWED_API_KEY = str(API_KEY)
@@ -29,5 +27,5 @@ async def search(q: str, type: int, lt: str | None = None, offset: int = 0):
 async def v2_search(q: str):
     query = q.lower()
     xss = nh3.clean(query)
-    data = await doc_searcher_v2.search_temp(text=xss)
     return data

 from fastapi import FastAPI, Request
 from doc_searcher import DocSearcher
 from doc_searcher_v2 import DocSearcherV2
 from huggingface_hub import login
 from config import HUGGING_FACE_API_KEY, COLLECTION_NAME, API_KEY, COLLECTION_NAME_SUGGESTION
 from fastapi.responses import StreamingResponse
 doc_searcher = DocSearcher(collection_name=COLLECTION_NAME)
 doc_searcher_v2 = DocSearcherV2(collection_name=COLLECTION_NAME)
 ALLOWED_API_KEY = str(API_KEY)
 async def v2_search(q: str):
     query = q.lower()
     xss = nh3.clean(query)
+    data = await doc_searcher_v2.search_semantic(text=xss)
     return data

doc_searcher_v2.py CHANGED Viewed

@@ -14,7 +14,7 @@ class DocSearcherV2:
         self.sparse_model = SparseTextEmbedding(SPARSE_MODEL)
         self.qdrant_client = QdrantClient(QDRANT_URL,api_key=QDRANT_API_KEY,timeout=30)
-    async def search_temp(self, text: str):
         queries = [text]
         dense_query = self.model.encode(text).tolist()
@@ -45,4 +45,32 @@ class DocSearcherV2:
         scores = self.reranker.compute_logits(queries,data)
-        return scores

         self.sparse_model = SparseTextEmbedding(SPARSE_MODEL)
         self.qdrant_client = QdrantClient(QDRANT_URL,api_key=QDRANT_API_KEY,timeout=30)
+    async def search_semantic(self, text: str):
         queries = [text]
         dense_query = self.model.encode(text).tolist()
         scores = self.reranker.compute_logits(queries,data)
+        return scores
+    async def search_keyword(self, text: str):
+        sparse_query = next(self.sparse_model.query_embed(text))
+        prefetch = [
+                models.Prefetch(
+                    query=models.SparseVector(**sparse_query.as_object()),
+                    using=SPARSE_MODEL,
+                    limit=100
+                )
+            ]
+        search_result = self.qdrant_client.query_points(
+            collection_name= "sl-list",
+            prefetch=prefetch,
+            query=models.FusionQuery(
+                fusion=models.Fusion.RRF,
+            ),
+            with_payload=True,
+            limit = 100,
+        ).points
+        data = []
+        for hit in search_result:
+            data.append(hit.payload["tekst"])
+        return data