Spaces:

ejjocko
/

dr-q-bot-multimodal

Sleeping

jocko commited on Aug 9

Commit

61e5bfd

1 Parent(s): dc78eca

merge code

Files changed (1) hide show

src/streamlit_app.py CHANGED Viewed

@@ -77,14 +77,29 @@ client = OpenAI(api_key=openai.api_key)
 # After seeing the real column name, let's say it's "text" instead of "description":
 text_field = "text" if "text" in data.features else list(data.features.keys())[0]
 # Then use dynamic access:
 #text_embeddings = embed_texts(data[text_field])
 # ========== 🧠 Embedding Function ==========
 @st.cache_data(show_spinner=False)
-def embed_texts(_texts):
     return text_model.encode(_texts, convert_to_tensor=True)
 # Pick which text column to use
 TEXT_COLUMN = "complaints"  # or "general_complaint", depending on your needs
@@ -112,8 +127,8 @@ def get_similar_prompt(query_embedding, text_embeddings):
 if query:
     with st.spinner("Searching medical cases..."):
-        text_embeddings = embed_texts(data[TEXT_COLUMN])
-        query_embedding = embed_texts([query])[0]
         # Compute similarity
         selected = get_similar_prompt(query_embedding, text_embeddings)

 # After seeing the real column name, let's say it's "text" instead of "description":
 text_field = "text" if "text" in data.features else list(data.features.keys())[0]
+@st.cache_data(show_spinner=False)
+def prepare_combined_texts(_dataset):
+    combined = []
+    for gc, c in zip(_dataset["general_complaint"], _dataset["complaints"]):
+        gc_str = gc if gc else ""
+        c_str = c if c else ""
+        combined.append(f"General complaint: {gc_str}. Additional details: {c_str}")
+    return combined
+combined_texts = prepare_combined_texts(data)
 # Then use dynamic access:
 #text_embeddings = embed_texts(data[text_field])
 # ========== 🧠 Embedding Function ==========
 @st.cache_data(show_spinner=False)
+def embed_dataset_texts(_texts):
     return text_model.encode(_texts, convert_to_tensor=True)
+def embed_query_text(query):
+    return text_model.encode([query], convert_to_tensor=True)[0]
 # Pick which text column to use
 TEXT_COLUMN = "complaints"  # or "general_complaint", depending on your needs
 if query:
     with st.spinner("Searching medical cases..."):
+        text_embeddings = embed_dataset_texts(combined_texts)  # cached
+        query_embedding = embed_query_text(query)  # recalculated each time
         # Compute similarity
         selected = get_similar_prompt(query_embedding, text_embeddings)