Spaces:

pcreem
/

brown-cafe

Sleeping

App Files Files Community

Song commited on 18 days ago

Commit

9cf2751

1 Parent(s): aa4568e

hi

Browse files

Files changed (2) hide show

app.py +43 -43
requirements.txt +6 -4

app.py CHANGED Viewed

@@ -30,6 +30,7 @@ from typing import List, Dict, Any, Optional, Tuple, Union
 from functools import lru_cache
 from dataclasses import dataclass, field
 from contextlib import asynccontextmanager
 # ---------- 第三方函式庫 ----------
 import numpy as np
@@ -149,6 +150,12 @@ PROMPT_TEMPLATES = {
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 log = logging.getLogger(__name__)
 @dataclass
 class FusedCandidate:
     idx: int
@@ -170,6 +177,8 @@ class RagPipeline:
         if not LLM_API_CONFIG["api_key"] or not LLM_API_CONFIG["base_url"]:
              raise ValueError("LLM API Key or Base URL is not configured.")
         self.llm_client = OpenAI(api_key=LLM_API_CONFIG["api_key"], base_url=LLM_API_CONFIG["base_url"])
         self.embedding_model = self._load_model(SentenceTransformer, EMBEDDING_MODEL, "embedding")
         self.reranker = self._load_model(CrossEncoder, RERANKER_MODEL, "reranker")
@@ -204,14 +213,13 @@ class RagPipeline:
                 if col not in self.df_csv.columns:
                     raise KeyError(f"CSV 檔案 '{CSV_PATH}' 中缺少必要欄位: {col}")
-            self.df_csv['drug_name_norm_normalized'] = (
-                self.df_csv['drug_name_norm'].str.lower().str.replace(r'[^\w\s]', '', regex=True).str.strip()
-            )
             self.drug_name_to_ids = self.df_csv.groupby('drug_name_norm_normalized')['drug_id'].unique().apply(list).to_dict()
-            # [MODIFIED] 把別名也變成可查鍵
             for alias, canonical in DRUG_NAME_MAPPING.items():
-                alias_key = re.sub(r'[^\w\s]', '', alias.lower()).strip()
-                canonical_key = re.sub(r'[^\w\s]', '', canonical.lower()).strip()
                 if canonical_key in self.drug_name_to_ids:
                     self.drug_name_to_ids[alias_key] = self.drug_name_to_ids[canonical_key]
             self._load_drug_name_vocabulary()
@@ -221,6 +229,10 @@ class RagPipeline:
             self.state.faiss_metric = getattr(self.state.index, "metric_type", faiss.METRIC_L2)
             if hasattr(self.state.index, "nprobe"):
                 self.state.index.nprobe = int(os.getenv("FAISS_NPROBE", "16"))
             with open(SENTENCES_PKL, "rb") as f:
                 data = pickle.load(f)
                 self.state.sentences = data["sentences"]
@@ -256,7 +268,7 @@ class RagPipeline:
                 else:
                     self.drug_vocab["en"].add(part)
         for alias in DRUG_NAME_MAPPING:
-            self.drug_vocab["en"].add(alias.lower())
             if re.search(r'[\u4e00-\u9fff]', alias):
                 if alias not in jieba.dt.FREQ:
                     try:
@@ -273,6 +285,7 @@ class RagPipeline:
     )
     def _llm_call(self, messages: List[Dict[str, str]], max_tokens: Optional[int] = None, temperature: Optional[float] = None) -> str:
         """安全地呼叫 LLM API，並處理可能的回應內容為空錯誤。"""
         log.info(f"LLM 呼叫開始. 模型: {self.model_name}, max_tokens: {max_tokens}, temperature: {temperature}")
         # [DEBUG] 記錄完整的 LLM 提示內容，以便除錯
@@ -280,7 +293,8 @@ class RagPipeline:
         start_time = time.time()
         try:
-            response = self.client.chat.completions.create(
                 model=self.model_name,
                 messages=messages,
                 max_tokens=max_tokens,
@@ -312,9 +326,7 @@ class RagPipeline:
         log.info(f"===== 處理新查詢: '{q_orig}' =====")
         try:
             drug_ids = self._find_drug_ids_from_name(q_orig)
-            if not drug_ids:
-                log.info("找不到藥品 ID，無法回答。")
-                return f"抱歉，資料庫中找不到該藥品。請確認藥品名稱，或直接諮詢醫師/藥師。{DISCLAIMER}"
             log.info(f"步驟 1/5: 找到藥品 ID: {drug_ids}，耗時: {time.time() - start_time:.2f} 秒")
             step_start = time.time()
@@ -345,9 +357,10 @@ class RagPipeline:
             context = self._build_context(reranked_results)
             if not context:
                 log.info("沒有足夠的上下文來回答問題。")
-                return f"根據您的問題，找不到相關的具體說明。建議您直接諮詢醫師或藥師以獲得最準確的資訊。{DISCLAIMER}"
             prompt = self._make_final_prompt(q_orig, context, intents)
             answer = self._llm_call([{"role": "user", "content": prompt}])
             final_answer = f"{answer.strip()}\n\n{DISCLAIMER}"
@@ -365,33 +378,15 @@ class RagPipeline:
     @lru_cache(maxsize=128)
     def _find_drug_ids_from_name(self, query: str) -> List[str]:
-        q = query.lower()
-        candidates = extract_drug_candidates_from_query(q, self.drug_vocab)
         drug_ids = set()
-        # 英文：詞邊界；中文：也做子字串掃描
         for k, ids in self.drug_name_to_ids.items():
-            if re.search(r'[\u4e00-\u9fff]', k):
-                if k in q:
-                    drug_ids.update(ids)
-            else:
-                if re.search(rf"\b{re.escape(k)}\b", q):
-                    drug_ids.update(ids)
-        # 仍保留舊的候選詞路徑（補強）
-        for alias in candidates:
-            # [MODIFIED] 英文藥名比對使用詞邊界，避免子字串誤判
-            is_english = not re.search(r'[\u4e00-\u9fff]', alias)
-            for drug_name_norm, ids in self.drug_name_to_ids.items():
-                match = False
-                if is_english:
-                    if re.search(rf"\b{re.escape(alias)}\b", drug_name_norm):
-                        match = True
-                elif alias in drug_name_norm:
-                    match = True
-                if match:
-                    drug_ids.update(ids)
         return list(drug_ids)
     def _analyze_query(self, query: str) -> Dict[str, Any]:
@@ -399,12 +394,18 @@ class RagPipeline:
             options="\n".join(f"- {c}" for c in INTENT_CATEGORIES),
             query=query
         )
         response_str = self._llm_call([{"role": "user", "content": prompt}], temperature=0.1)
         return self._safe_json_parse(response_str, default={"sub_queries": [query], "intents": []})
     def _retrieve_candidates_for_all_queries(self, drug_ids: List[str], sub_queries: List[str], intents: List[str]) -> List[FusedCandidate]:
         drug_ids_set = set(map(str, drug_ids))
-        relevant_indices = {i for i, m in enumerate(self.state.meta) if str(m.get("drug_id", "")) in drug_ids_set}
         if not relevant_indices: return []
         all_fused_candidates: Dict[int, FusedCandidate] = {}
@@ -632,17 +633,16 @@ def line_push_generic(source_type: str, target_id: str, text: str):
     data = {"to": target_id, "messages": messages}
     line_api_call(endpoint, data)
-# [MODIFIED] 改善藥名提取的正則表達式
 def extract_drug_candidates_from_query(query: str, drug_vocab: dict) -> list:
     candidates = set()
-    q_lower = query.lower()
-    # 允許藥名中包含 -, /, . 等符號
-    words = re.findall(r"[a-z0-9][a-z0-9+\-/\.]*", q_lower)
-    for word in words:
         if word in drug_vocab["en"]:
             candidates.add(word)
-    for token in jieba.cut(q_lower):
         if token in drug_vocab["zh"]:
             candidates.add(token)

 from functools import lru_cache
 from dataclasses import dataclass, field
 from contextlib import asynccontextmanager
+import unicodedata # [新增]
 # ---------- 第三方函式庫 ----------
 import numpy as np
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 log = logging.getLogger(__name__)
+# [新增] 統一字串正規化函式
+def _norm(s: str) -> str:
+    """統一化字串：NFKC 正規化、轉小寫、移除標點符號與空白。"""
+    s = unicodedata.normalize("NFKC", s)
+    return re.sub(r"[^\w\s]", "", s.lower()).strip()
 @dataclass
 class FusedCandidate:
     idx: int
         if not LLM_API_CONFIG["api_key"] or not LLM_API_CONFIG["base_url"]:
              raise ValueError("LLM API Key or Base URL is not configured.")
         self.llm_client = OpenAI(api_key=LLM_API_CONFIG["api_key"], base_url=LLM_API_CONFIG["base_url"])
+        # [FIXED] 新增 model_name 屬性
+        self.model_name = LLM_API_CONFIG["model"]
         self.embedding_model = self._load_model(SentenceTransformer, EMBEDDING_MODEL, "embedding")
         self.reranker = self._load_model(CrossEncoder, RERANKER_MODEL, "reranker")
                 if col not in self.df_csv.columns:
                     raise KeyError(f"CSV 檔案 '{CSV_PATH}' 中缺少必要欄位: {col}")
+            # [MODIFIED] 統一使用 _norm 函式進行正規化
+            self.df_csv['drug_name_norm_normalized'] = self.df_csv['drug_name_norm'].apply(_norm)
             self.drug_name_to_ids = self.df_csv.groupby('drug_name_norm_normalized')['drug_id'].unique().apply(list).to_dict()
+            # [MODIFIED] 把別名也變成可查鍵，並使用統一正規化
             for alias, canonical in DRUG_NAME_MAPPING.items():
+                alias_key = _norm(alias)
+                canonical_key = _norm(canonical)
                 if canonical_key in self.drug_name_to_ids:
                     self.drug_name_to_ids[alias_key] = self.drug_name_to_ids[canonical_key]
             self._load_drug_name_vocabulary()
             self.state.faiss_metric = getattr(self.state.index, "metric_type", faiss.METRIC_L2)
             if hasattr(self.state.index, "nprobe"):
                 self.state.index.nprobe = int(os.getenv("FAISS_NPROBE", "16"))
+            # [新增] 檢查 FAISS 指標類型，若為 IP 則提示
+            if self.state.faiss_metric == faiss.METRIC_INNER_PRODUCT:
+                log.info("FAISS 索引使用內積 (IP) 指標，檢索時將自動進行 L2 正規化以實現餘弦相似度。")
             with open(SENTENCES_PKL, "rb") as f:
                 data = pickle.load(f)
                 self.state.sentences = data["sentences"]
                 else:
                     self.drug_vocab["en"].add(part)
         for alias in DRUG_NAME_MAPPING:
+            self.drug_vocab["en"].add(_norm(alias)) # [修改]
             if re.search(r'[\u4e00-\u9fff]', alias):
                 if alias not in jieba.dt.FREQ:
                     try:
     )
     def _llm_call(self, messages: List[Dict[str, str]], max_tokens: Optional[int] = None, temperature: Optional[float] = None) -> str:
         """安全地呼叫 LLM API，並處理可能的回應內容為空錯誤。"""
+        # [FIXED] 修正 self.client 為 self.llm_client
         log.info(f"LLM 呼叫開始. 模型: {self.model_name}, max_tokens: {max_tokens}, temperature: {temperature}")
         # [DEBUG] 記錄完整的 LLM 提示內容，以便除錯
         start_time = time.time()
         try:
+            # [FIXED] 修正 self.client 為 self.llm_client
+            response = self.llm_client.chat.completions.create(
                 model=self.model_name,
                 messages=messages,
                 max_tokens=max_tokens,
         log.info(f"===== 處理新查詢: '{q_orig}' =====")
         try:
             drug_ids = self._find_drug_ids_from_name(q_orig)
+            # [MODIFIED] 移除找不到藥品 ID 的直接返回邏輯，讓 RAG 流程繼續，以處理無明確藥名的通用問題。
             log.info(f"步驟 1/5: 找到藥品 ID: {drug_ids}，耗時: {time.time() - start_time:.2f} 秒")
             step_start = time.time()
             context = self._build_context(reranked_results)
             if not context:
                 log.info("沒有足夠的上下文來回答問題。")
+                return f"根據提供的資料，無法回答您的問題。{DISCLAIMER}"
             prompt = self._make_final_prompt(q_orig, context, intents)
+            # [FIXED] 修正 self.client 為 self.llm_client
             answer = self._llm_call([{"role": "user", "content": prompt}])
             final_answer = f"{answer.strip()}\n\n{DISCLAIMER}"
     @lru_cache(maxsize=128)
     def _find_drug_ids_from_name(self, query: str) -> List[str]:
+        # [修改] 使用統一正規化函式
+        q_norm = _norm(query)
         drug_ids = set()
+        # 藉由查詢正規化後的字串，直接與正規化後的藥名鍵進行比對
         for k, ids in self.drug_name_to_ids.items():
+            if k in q_norm:
+                drug_ids.update(ids)
         return list(drug_ids)
     def _analyze_query(self, query: str) -> Dict[str, Any]:
             options="\n".join(f"- {c}" for c in INTENT_CATEGORIES),
             query=query
         )
+        # [FIXED] 修正 self.client 為 self.llm_client
         response_str = self._llm_call([{"role": "user", "content": prompt}], temperature=0.1)
         return self._safe_json_parse(response_str, default={"sub_queries": [query], "intents": []})
     def _retrieve_candidates_for_all_queries(self, drug_ids: List[str], sub_queries: List[str], intents: List[str]) -> List[FusedCandidate]:
         drug_ids_set = set(map(str, drug_ids))
+        # [MODIFIED] 如果 drug_ids 為空，則 relevant_indices 應包含所有索引
+        if drug_ids_set:
+            relevant_indices = {i for i, m in enumerate(self.state.meta) if str(m.get("drug_id", "")) in drug_ids_set}
+        else:
+            relevant_indices = set(range(len(self.state.meta)))
         if not relevant_indices: return []
         all_fused_candidates: Dict[int, FusedCandidate] = {}
     data = {"to": target_id, "messages": messages}
     line_api_call(endpoint, data)
+# [MODIFIED] 改善藥名提取的正則表達式，並使用統一正規化函式
 def extract_drug_candidates_from_query(query: str, drug_vocab: dict) -> list:
     candidates = set()
+    q_norm = _norm(query) # [修改]
+    for word in re.findall(r"[a-z0-9]+", q_norm): # [修改] 允許數字
         if word in drug_vocab["en"]:
             candidates.add(word)
+    for token in jieba.cut(q_norm): # [修改]
         if token in drug_vocab["zh"]:
             candidates.add(token)

requirements.txt CHANGED Viewed

@@ -1,13 +1,15 @@
-numpy
-pandas
 fastapi
 uvicorn
 jieba
 rank-bm25
 sentence-transformers
-# 根據您的硬體選擇一個，若有 NVIDIA GPU 請使用 faiss-gpu，否則使用 faiss-cpu
-faiss-cpu
 torch
 openai
 tenacity
 requests

+# 主要套件
 fastapi
 uvicorn
+pandas
+numpy
 jieba
 rank-bm25
+faiss-cpu # 向量搜尋引擎
 sentence-transformers
+# 確保 torch 版本與 faiss 相容
 torch
+# LLM 呼叫相關
 openai
 tenacity
 requests