Spaces:

suwesh
/

Sage_arXiv

Runtime error

App Files Files Community

suwesh commited on Jan 16

Commit

c543e79

verified ·

1 Parent(s): b1fee52

Update app.py

Browse files

Files changed (1) hide show

app.py +50 -4

app.py CHANGED Viewed

@@ -1,11 +1,57 @@
 import gradio as gr
 from huggingface_hub import InferenceClient
-"""
-For more information on `huggingface_hub` Inference API support, please check the docs: https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
-"""
-client = InferenceClient("HuggingFaceH4/zephyr-7b-beta")
 def respond(
     message,

 import gradio as gr
 from huggingface_hub import InferenceClient
+import json
+import pandas as pd
+import numpy as np
+import torch
+from sentence_transformers import SentenceTransformer
+import nltk
+from nltk.tokenize import sent_tokenize
+import faiss
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+optimus = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
+textsplitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
+dbpath = r''
+gridpath = r''
+with open(dbpath) as f:
+    papers = [json.loads(line) for line in f]
+df = pd.DataFrame(papers)
+reqdf = df[['id', 'title', 'categories', 'abstract']]
+d = 384
+index = faiss.IndexFlatL2(d)
+thegird = []#load the grid and index from json file here
+def gen_embeddings(text):
+    sentences = sent_tokenize(text)
+    embeddings = optimus.encode(sentences)
+    return embeddings
+query_list = gen_embeddings(query)
+if len(query_list) > 1:
+    query_list = torch.mean(query_list, dim=0)
+query_matrix = np.array(query_list).astype('float32').reshape(-1,1)
+k = 10
+distances, indices = index.search(query_matrix, k)
+result_texts = [thegrid[idx]['text'] for idx in indices[0]]
+for i, text in enumerate(result_texts):
+    printres = f"Match {i+1}: {text}"
+searched_topics = []
+idcache = []
+for text in result_texts:
+    rowid = text.split("|||")[0]
+    if rowid in idcache:
+        break;
+    else:
+        topic = reqdf.loc[reqdf['id'] === rowid, 'title'].values[0]
+        searched_topics.append(rowid)
+        idcache.append(rowid)
 def respond(
     message,