Spaces:

pcreem
/

brown-cafe

Sleeping

App Files Files Community

Song commited on 22 days ago

Commit

b4be37b

1 Parent(s): 84e38c0

hi

Browse files

Files changed (1) hide show

app.py +85 -20

app.py CHANGED Viewed

@@ -124,7 +124,8 @@ class RagPipeline:
         self.embedding_model = self._load_embedding_model()
         self.reranker = self._load_reranker_model()
         self.csv_path = self._ensure_csv_path(CSV_PATH)
-        self.drug_name_to_ids = {}  # 預建 drug_name 到 drug_id 的映射
     def _load_embedding_model(self):
         device = "cuda" if torch.cuda.is_available() else "cpu"
@@ -161,7 +162,7 @@ class RagPipeline:
             raise FileNotFoundError(f"找不到 CSV 檔案於 {self.csv_path}")
         self.df_csv = pd.read_csv(self.csv_path, dtype=str).fillna('')
-        required_cols = {"drug_id", "drug_name_norm", "section"}
         missing_cols = required_cols - set(self.df_csv.columns)
         if missing_cols:
             raise ValueError(f"CSV 缺少必要欄位: {missing_cols}")
@@ -172,6 +173,8 @@ class RagPipeline:
         self.drug_name_to_ids = self.df_csv.groupby('drug_name_norm_normalized')['drug_id'].unique().apply(list).to_dict()
         log.info(f"成功載入 CSV: {self.csv_path} (rows={len(self.df_csv)})")
         self.state.index, self.state.sentences, self.state.meta = self._load_or_build_sentence_index()
         self.state.bm25 = self._ensure_bm25_index()
@@ -187,6 +190,31 @@ class RagPipeline:
         log.info("所有模型與資料載入完成。")
     def _load_or_build_sentence_index(self):
         if os.path.exists(FAISS_INDEX) and os.path.exists(SENTENCES_PKL):
             log.info("載入已存在的索引...")
@@ -246,7 +274,6 @@ class RagPipeline:
         try:
             log.info("步驟 1/5: 辨識藥品名稱...")
-            # 修正：移除不必要的 self.df_csv 參數
             drug_ids = self._find_drug_ids_from_name(q_orig)
             if not drug_ids:
                 log.warning("未找到對應藥品，直接回覆。")
@@ -272,7 +299,7 @@ class RagPipeline:
                 return f"找不到 drug_id {drug_ids} 對應的任何 chunks。{DISCLAIMER}"
             for sub_q in sub_queries:
-                expanded_q = self._expand_query_with_llm(sub_q, intents)
                 log.info(f"擴展後的查詢: '{expanded_q}'")
                 weights = self._adjust_section_weights(intents)
@@ -363,7 +390,7 @@ class RagPipeline:
     @lru_cache(maxsize=128)
     def _find_drug_ids_from_name(self, query: str) -> List[str]:
-        candidates = extract_drug_candidates_from_query(query)
         expanded = expand_aliases(candidates)
         drug_ids = set()
@@ -374,9 +401,41 @@ class RagPipeline:
             except Exception as e:
                 log.warning(f"Failed to match '{alias}': {e}. Skipping this alias.")
         return list(drug_ids)
     @lru_cache(maxsize=128)
-    def _expand_query_with_llm(self, query: str, intents: Tuple[str]) -> str:
         prompt = f"""請根據以下意圖：{list(intents)}，擴展原始查詢，加入相關同義詞、相關術語和不同的說法。
 原始查詢：{query}
 請僅輸出擴展後的查詢，不需任何額外的解釋或格式。"""
@@ -582,22 +641,28 @@ def line_reply(reply_token: str, text: str):
         log.error(f"LINE API 回覆失敗: {e}")
 # ---- 額外工具函式 ----
-def extract_drug_candidates_from_query(query: str) -> list:
-    query = re.sub(r"[A-Za-z]+", lambda m: m.group(0).lower(), query)
     candidates = set()
-    parts = query.split(":", 1)
-    drug_part = parts[0]
-    for m in re.finditer(r"[a-zA-Z]{3,}", drug_part):
-        candidates.add(m.group(0))
-    for token in re.split(r"[\s,／()（）]+", drug_part):
-        clean_token = re.sub(r'[a-zA-Z0-9\s]+', '', token).strip()
-        if clean_token and clean_token.lower() not in DRUG_STOPWORDS:
             candidates.add(clean_token)
-    for query_name, dataset_name in DRUG_NAME_MAPPING.items():
-        if query_name in query.lower():
-            candidates.add(dataset_name)
-    return [c for c in candidates if len(c) > 1]
 def expand_aliases(candidates: list) -> list:
     out = set()

         self.embedding_model = self._load_embedding_model()
         self.reranker = self._load_reranker_model()
         self.csv_path = self._ensure_csv_path(CSV_PATH)
+        self.drug_name_to_ids = {}
+        self.drug_vocab = {"zh": set(), "en": set()}
     def _load_embedding_model(self):
         device = "cuda" if torch.cuda.is_available() else "cpu"
             raise FileNotFoundError(f"找不到 CSV 檔案於 {self.csv_path}")
         self.df_csv = pd.read_csv(self.csv_path, dtype=str).fillna('')
+        required_cols = {"drug_id", "drug_name_zh", "drug_name_en", "section"}
         missing_cols = required_cols - set(self.df_csv.columns)
         if missing_cols:
             raise ValueError(f"CSV 缺少必要欄位: {missing_cols}")
         self.drug_name_to_ids = self.df_csv.groupby('drug_name_norm_normalized')['drug_id'].unique().apply(list).to_dict()
         log.info(f"成功載入 CSV: {self.csv_path} (rows={len(self.df_csv)})")
+        self._load_drug_name_vocabulary()
         self.state.index, self.state.sentences, self.state.meta = self._load_or_build_sentence_index()
         self.state.bm25 = self._ensure_bm25_index()
         log.info("所有模型與資料載入完成。")
+    def _load_drug_name_vocabulary(self):
+        """從 CSV 載入所有中英文藥名，建立詞庫"""
+        log.info("建立藥名詞庫...")
+        zh_names = self.df_csv['drug_name_zh'].dropna().unique()
+        en_names = self.df_csv['drug_name_en'].dropna().unique()
+        for name in zh_names:
+            # 去除標點符號和空格
+            clean_name = re.sub(r'[^\u4e00-\u9fff]', '', str(name)).strip()
+            if clean_name:
+                self.drug_vocab["zh"].add(clean_name)
+        for name in en_names:
+            clean_name = str(name).lower().replace(' ', '').strip()
+            if clean_name:
+                self.drug_vocab["en"].add(clean_name)
+        # 加入別名
+        for _, dataset_name in DRUG_NAME_MAPPING.items():
+            clean_name = dataset_name.lower().replace(' ', '').strip()
+            if clean_name:
+                self.drug_vocab["en"].add(clean_name)
+        log.info(f"藥名詞庫建立完成。中文詞彙數: {len(self.drug_vocab['zh'])}, 英文詞彙數: {len(self.drug_vocab['en'])}")
     def _load_or_build_sentence_index(self):
         if os.path.exists(FAISS_INDEX) and os.path.exists(SENTENCES_PKL):
             log.info("載入已存在的索引...")
         try:
             log.info("步驟 1/5: 辨識藥品名稱...")
             drug_ids = self._find_drug_ids_from_name(q_orig)
             if not drug_ids:
                 log.warning("未找到對應藥品，直接回覆。")
                 return f"找不到 drug_id {drug_ids} 對應的任何 chunks。{DISCLAIMER}"
             for sub_q in sub_queries:
+                expanded_q = self._expand_query_with_llm(sub_q, tuple(intents))
                 log.info(f"擴展後的查詢: '{expanded_q}'")
                 weights = self._adjust_section_weights(intents)
     @lru_cache(maxsize=128)
     def _find_drug_ids_from_name(self, query: str) -> List[str]:
+        candidates = extract_drug_candidates_from_query(query, self.drug_vocab)
         expanded = expand_aliases(candidates)
         drug_ids = set()
             except Exception as e:
                 log.warning(f"Failed to match '{alias}': {e}. Skipping this alias.")
         return list(drug_ids)
+    def _analyze_query(self, query: str) -> Dict[str, Any]:
+        """一次性呼叫 LLM，同時獲取子問題和意圖。"""
+        options = "\n".join(f"- {c}" for c in INTENT_CATEGORIES)
+        prompt = f"""
+請分析以下使用者問題，並完成以下兩個任務：
+1. 將問題分解為1-3個子問題。
+2. 判斷問題的意圖，從清單中選擇最貼近的分類。
+請以 JSON 格式回覆，包含 'sub_queries' (字串陣列) 和 'intent' (字串) 兩個鍵。
+範例: {{"sub_queries": ["子問題一", "子問題二"], "intent": "分類名稱"}}
+清單：
+{options}
+使用者問題：{query}
+"""
+        messages = [{"role": "user", "content": prompt}]
+        response = ""
+        try:
+            response = self._llm_call(messages, temperature=0.2)
+            result = json.loads(response)
+            sub_queries = result.get("sub_queries", [])
+            intent = result.get("intent", None)
+            if not sub_queries:
+                sub_queries = [query]
+            return {"sub_queries": sub_queries, "intents": [intent] if intent else []}
+        except Exception as e:
+            log.error(f"分析查詢時發生錯誤，LLM回覆: '{response}'，錯誤: {e}", exc_info=True)
+            return {"sub_queries": [query], "intents": []}
     @lru_cache(maxsize=128)
+    def _expand_query_with_llm(self, query: str, intents: tuple) -> str:
         prompt = f"""請根據以下意圖：{list(intents)}，擴展原始查詢，加入相關同義詞、相關術語和不同的說法。
 原始查詢：{query}
 請僅輸出擴展後的查詢，不需任何額外的解釋或格式。"""
         log.error(f"LINE API 回覆失敗: {e}")
 # ---- 額外工具函式 ----
+def extract_drug_candidates_from_query(query: str, drug_vocab: dict) -> list:
+    query = query.lower()
     candidates = set()
+    # 步驟 1: 處理冒號，僅對冒號前的部分進行藥名提取
+    drug_part = query.split(':', 1)[0]
+    # 步驟 2: 獨立處理中英文，並與詞庫比對
+    # 處理英文
+    words = re.findall(r'[a-z0-9]+', drug_part)
+    for word in words:
+        if word in drug_vocab["en"]:
+            candidates.add(word)
+    # 處理中文
+    for token in jieba.cut(drug_part):
+        clean_token = re.sub(r'[^\u4e00-\u9fff]', '', token).strip()
+        if clean_token and clean_token in drug_vocab["zh"] and clean_token not in DRUG_STOPWORDS:
             candidates.add(clean_token)
+    return list(candidates)
 def expand_aliases(candidates: list) -> list:
     out = set()