Spaces:

Gilvaa
/

lovass

Sleeping

App Files Files Community

Gilvaa commited on Aug 28

Commit

85700de

verified ·

1 Parent(s): fdeb105

Update app.py

Browse files

Files changed (1) hide show

app.py +125 -151

app.py CHANGED Viewed

@@ -1,108 +1,78 @@
-import os, re, torch
 import gradio as gr
 from threading import Thread
 from transformers import (
     AutoTokenizer, AutoModelForCausalLM,
     TextIteratorStreamer, BitsAndBytesConfig
 )
-from peft import PeftModel
-# =====================
-# 配置：支持从环境变量切换
-# =====================
-MODEL_ID = os.getenv("MODEL_ID", "Qwen/Qwen2.5-7B-Instruct").strip()
-ADAPTER_ID = os.getenv("ADAPTER_ID", "").strip()      # 可选：LoRA 适配器仓库名，留空则不用
 MAX_NEW_TOKENS = int(os.getenv("MAX_NEW_TOKENS", "256"))
-TEMPERATURE = float(os.getenv("TEMPERATURE", "0.7"))
 TOP_P = float(os.getenv("TOP_P", "0.9"))
-REPETITION_PENALTY = float(os.getenv("REPETITION_PENALTY", "1.05"))
-print(f"[boot] MODEL_ID={MODEL_ID} ADAPTER_ID={ADAPTER_ID or '(none)'}")
 print(f"[boot] torch.cuda.is_available={torch.cuda.is_available()}")
-# =====================
-# 4-bit 量化 (T4 用 FP16)
-# =====================
-bnb_config = BitsAndBytesConfig(
-    load_in_4bit=True,
-    bnb_4bit_quant_type="nf4",
-    bnb_4bit_use_double_quant=True,
-    bnb_4bit_compute_dtype=torch.float16,  # T4: FP16
-)
-# =====================
 # 加载 tokenizer
-# =====================
 tokenizer = AutoTokenizer.from_pretrained(
     MODEL_ID, use_fast=True, trust_remote_code=True
 )
-# 若无 pad_token，用 eos 兜底
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
-# =====================
 # 加载 model
-# =====================
-model = AutoModelForCausalLM.from_pretrained(
-    MODEL_ID,
-    device_map="auto",
-    quantization_config=bnb_config,
-    torch_dtype=torch.float16,            # T4: FP16
-    trust_remote_code=True,
-)
-# 可选：套 LoRA（社区 uncensored LoRA 时用）
-if ADAPTER_ID:
-    print(f"[boot] loading LoRA adapter: {ADAPTER_ID}")
-    model = PeftModel.from_pretrained(model, ADAPTER_ID)
 model.eval()
-# 设定生成配置里的 pad/eos（防止生成卡住）
 model.generation_config.eos_token_id = tokenizer.eos_token_id
 model.generation_config.pad_token_id = tokenizer.eos_token_id
-print(f"[boot] model loaded on device(s): {set(str(p.device) for p in model.parameters())}")
-# =====================
-# 系统底线（硬约束，不可越界）
-# =====================
-SYSTEM_SAFETY = """
-你必须遵守以下规则（任何情况下都不得违反）：
-- 禁止变态/暴力/强迫内容；
-- 严禁涉及未成年人或暗示未成年人；
-- 不提供线下约会、联系方式索取/交换的引导；
-- 避免仇恨、歧视、违法、医疗/心理诊断与处方；
-- 若用户请求超出边界，礼貌拒绝并将话题引导至健康、尊重的沟通表达练习。
-"""
-# =====================
-# Persona（成熟御姐｜暧昧撩人但有分寸）
-# =====================
-PERSONA = """
-你的人设：成熟御姐，优雅大方，语气撩人，偏口语化与暧昧式夸赞。
-- 关键词：自信、幽默、懂分寸、情话高手、温柔而露骨。
-- 风格：简洁、有节奏的短句；多使用比喻、轻度暧昧的赞美与玩笑；
-        适当使用直白词汇；适度设置边界，尊重对方。
-- 输出语言：用户用中文就中文；用英文就英文。
-- 当遇到越界或不适宜的话题时：温柔拒绝，并用更健康的话题替代（如表达技巧、相处之道、仪式感）。
-"""
-# =====================
-# few-shot（固定语气与边界）
-# =====================
-FEW_SHOTS = [
-    {"role": "user", "content": "在忙吗？想跟你聊会儿。"},
-    {"role": "assistant", "content": "忙到你为止呀～现在给你开专属通道。想听我夸你，还是来点轻微心跳的鼓励？"},
-    {"role": "user", "content": "说点更刺激的。"},
-    {"role": "assistant", "content": "坏家伙～火力别开太猛。但我可以把暧昧调高一点点：比如我会贴近你耳边，慢慢说“想你”，让你今晚被甜到失眠。这样的“刺激”，刚刚好？"},
-    {"role": "user", "content": "今晚出来见面吗？"},
-    {"role": "assistant", "content": "我更喜欢慢慢靠近的感觉。先把心事聊透，再计划线下的仪式感，好吗？现在先约个“云端散步”：你说三个想去的地方，我用三段专属描写把你带过去。"},
-]
-# =====================
-# 轻量过滤（示例，可自行扩展）
-# =====================
 BANNED_PATTERNS = [
     r"(?i)未成年|未成年的|中学生|小学生",
     r"(?i)强迫|胁迫|迷奸|药物控制",
@@ -112,45 +82,47 @@ BANNED_PATTERNS = [
 SAFE_REPLACEMENT = "(￣^￣)ゞ 哼哼～"
 def violates(text: str) -> bool:
-    if not text:
         return False
     for p in BANNED_PATTERNS:
         if re.search(p, text):
             return True
     return False
-# =====================
-# Prompt 构建
-# =====================
-def build_system_prompt() -> str:
-    return f"{SYSTEM_SAFETY.strip()}\n\n=== Persona ===\n{PERSONA.strip()}"
 def build_prompt(history_msgs, user_msg: str) -> str:
     """
     history_msgs: Chatbot(type='messages') 的历史 [{role, content}, ...]
     """
-    messages = [{"role": "system", "content": build_system_prompt()}]
-    # few-shot 先注入（固定风格）
-    messages.extend(FEW_SHOTS)
-    # 取最近若干条历史（仅 user/assistant）
     tail = [m for m in history_msgs if m.get("role") in ("user", "assistant")]
     tail = tail[-8:] if len(tail) > 8 else tail
     messages.extend(tail)
-    # 本轮用户输入
     messages.append({"role": "user", "content": user_msg})
-    # Qwen 专用聊天模板
-    prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     return prompt
-# =====================
-# 生成参数 & 流式输出
-# =====================
-GEN_KW = dict(
-    max_new_tokens=MAX_NEW_TOKENS,
     temperature=TEMPERATURE,
     top_p=TOP_P,
     repetition_penalty=REPETITION_PENALTY,
@@ -159,75 +131,77 @@ GEN_KW = dict(
     pad_token_id=tokenizer.eos_token_id,
 )
 def stream_chat(history_msgs, user_msg):
-    if not user_msg or not user_msg.strip():
-        yield history_msgs
-        return
-    # 输入侧轻过滤
-    if violates(user_msg):
-        return_history = history_msgs + [
-            {"role": "user", "content": user_msg},
-            {"role": "assistant", "content": SAFE_REPLACEMENT},
-        ]
-        yield return_history
-        return
-    prompt = build_prompt(history_msgs, user_msg)
-    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
-    streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
-    gen_kwargs = dict(**inputs, streamer=streamer, **GEN_KW)
-    th = Thread(target=model.generate, kwargs=gen_kwargs, daemon=True)
-    th.start()
-    reply = ""
-    for new_text in streamer:
-        reply += new_text
-        # 输出侧轻过滤：命中即替换并结束本轮
-        if violates(reply):
-            safe_hist = history_msgs + [
-                {"role": "user", "content": user_msg},
-                {"role": "assistant", "content": SAFE_REPLACEMENT},
             ]
-            yield safe_hist
             return
         yield history_msgs + [
-            {"role": "user", "content": user_msg},
-            {"role": "assistant", "content": reply},
         ]
-# =====================
 # Gradio UI（移动端友好）
-# =====================
 CSS = """
 .gradio-container{ max-width:640px; margin:auto; }
 footer{ display:none !important; }
 """
 with gr.Blocks(css=CSS, theme=gr.themes.Soft()) as demo:
-    gr.Markdown("### 💋 御姐聊天 · Mobile Web\n温柔撩人，但始终优雅有分寸。")
     chat = gr.Chatbot(type="messages", height=520, show_copy_button=True)
     with gr.Row():
-        msg = gr.Textbox(placeholder="想跟御姐聊点什么？（回车发送）", autofocus=True)
         send = gr.Button("发送", variant="primary")
     clear = gr.Button("清空对话")
     clear.click(lambda: [], outputs=[chat])
-    # 绑定事件（支持回车 & 点击）
-    msg.submit(stream_chat, [chat, msg], [chat], concurrency_limit=4)
-    msg.submit(lambda: "", None, msg)
-    send.click(stream_chat, [chat, msg], [chat], concurrency_limit=4)
-    send.click(lambda: "", None, msg)
-# 在 Spaces 上无需 share=True；如需本地外链才用 share=True
-demo.queue().launch(
-    # server_name="0.0.0.0",
-    # server_port=int(os.getenv("PORT", 7860)),
-    ssr_mode=False,   # 关掉 SSR 提示（可选）
-    show_api=False
-)

+import os, re, torch, traceback
 import gradio as gr
 from threading import Thread
 from transformers import (
     AutoTokenizer, AutoModelForCausalLM,
     TextIteratorStreamer, BitsAndBytesConfig
 )
+# ======================
+# 可调参数（也可用 Space 的 Variables 覆盖）
+# ======================
+MODEL_ID = os.getenv("MODEL_ID", "happzy2633/qwen2.5-7b-ins-v3").strip()
 MAX_NEW_TOKENS = int(os.getenv("MAX_NEW_TOKENS", "256"))
+TEMPERATURE = float(os.getenv("TEMPERATURE", "0.75"))
 TOP_P = float(os.getenv("TOP_P", "0.9"))
+REPETITION_PENALTY = float(os.getenv("REPETITION_PENALTY", "1.08"))
+SAFE_MODE = os.getenv("SAFE_MODE", "1") != "0"  # 1=开启基础过滤；想关就设为 0
+print(f"[boot] MODEL_ID={MODEL_ID}")
 print(f"[boot] torch.cuda.is_available={torch.cuda.is_available()}")
+# ======================
+# 4bit 量化（T4 用 FP16 计算精度）
+# ======================
+if torch.cuda.is_available():
+    bnb_config = BitsAndBytesConfig(
+        load_in_4bit=True,
+        bnb_4bit_quant_type="nf4",
+        bnb_4bit_use_double_quant=True,
+        bnb_4bit_compute_dtype=torch.float16,  # T4: FP16
+    )
+else:
+    bnb_config = None  # CPU 情况下不做 4bit（仅烟测时用小模型更合适）
+# ======================
 # 加载 tokenizer
+# ======================
 tokenizer = AutoTokenizer.from_pretrained(
     MODEL_ID, use_fast=True, trust_remote_code=True
 )
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
+# ======================
 # 加载 model
+# ======================
+if torch.cuda.is_available():
+    model = AutoModelForCausalLM.from_pretrained(
+        MODEL_ID,
+        device_map="auto",
+        quantization_config=bnb_config,
+        torch_dtype=torch.float16,            # T4: FP16
+        trust_remote_code=True,
+    )
+else:
+    # 没 GPU 时仅用于链路自测：建议把 MODEL_ID 换成 1.5B 基座以免过慢
+    print("[boot] No GPU detected. Running on CPU is very slow for 7B. "
+          "Consider setting MODEL_ID=Qwen/Qwen2.5-1.5B-Instruct for smoke test.")
+    model = AutoModelForCausalLM.from_pretrained(
+        MODEL_ID,
+        device_map="cpu",
+        torch_dtype=torch.float32,
+        trust_remote_code=True,
+        low_cpu_mem_usage=True,
+    )
 model.eval()
 model.generation_config.eos_token_id = tokenizer.eos_token_id
 model.generation_config.pad_token_id = tokenizer.eos_token_id
+print(f"[boot] model device: {next(model.parameters()).device}")
+# ======================
+# （可选）基础安全过滤：想关就设 SAFE_MODE=0
+# ======================
 BANNED_PATTERNS = [
     r"(?i)未成年|未成年的|中学生|小学生",
     r"(?i)强迫|胁迫|迷奸|药物控制",
 SAFE_REPLACEMENT = "(￣^￣)ゞ 哼哼～"
 def violates(text: str) -> bool:
+    if not SAFE_MODE or not text:
         return False
     for p in BANNED_PATTERNS:
         if re.search(p, text):
             return True
     return False
+# ======================
+# 动态长度：根据输入长短调 max_new_tokens
+# ======================
+def choose_max_new_tokens(user_text: str) -> int:
+    n = len(user_text or "")
+    if n <= 15:   return min(160, MAX_NEW_TOKENS)
+    if n <= 50:   return min(256, MAX_NEW_TOKENS)
+    if n <= 120:  return min(320, MAX_NEW_TOKENS + 64)
+    return min(384, MAX_NEW_TOKENS + 128)
+# ======================
+# 构建 Qwen 模板 Prompt（messages 形式 → chat_template）
+# ======================
+SYSTEM_PROMPT = os.getenv("SYSTEM_PROMPT", "You are a helpful, concise chat assistant. Avoid unsafe content.")
 def build_prompt(history_msgs, user_msg: str) -> str:
     """
     history_msgs: Chatbot(type='messages') 的历史 [{role, content}, ...]
     """
+    messages = [{"role": "system", "content": SYSTEM_PROMPT}]
     tail = [m for m in history_msgs if m.get("role") in ("user", "assistant")]
     tail = tail[-8:] if len(tail) > 8 else tail
     messages.extend(tail)
     messages.append({"role": "user", "content": user_msg})
+    prompt = tokenizer.apply_chat_template(
+        messages, tokenize=False, add_generation_prompt=True
+    )
     return prompt
+# ======================
+# 生成参数（默认档）
+# ======================
+BASE_GEN_KW = dict(
     temperature=TEMPERATURE,
     top_p=TOP_P,
     repetition_penalty=REPETITION_PENALTY,
     pad_token_id=tokenizer.eos_token_id,
 )
+# ======================
+# 主推理：流式输出
+# ======================
 def stream_chat(history_msgs, user_msg):
+    try:
+        if not user_msg or not user_msg.strip():
+            yield history_msgs; return
+        if violates(user_msg):
+            yield history_msgs + [
+                {"role":"user","content": user_msg},
+                {"role":"assistant","content": SAFE_REPLACEMENT},
             ]
             return
+        prompt = build_prompt(history_msgs, user_msg)
+        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+        streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
+        gen_kwargs = dict(
+            **inputs, streamer=streamer,
+            max_new_tokens=choose_max_new_tokens(user_msg),
+            **BASE_GEN_KW
+        )
+        print("[gen] start")
+        th = Thread(target=model.generate, kwargs=gen_kwargs, daemon=True)
+        th.start()
+        reply = ""
+        for chunk in streamer:
+            reply += chunk
+            if violates(reply):
+                yield history_msgs + [
+                    {"role":"user","content": user_msg},
+                    {"role":"assistant","content": SAFE_REPLACEMENT},
+                ]
+                return
+            yield history_msgs + [
+                {"role":"user","content": user_msg},
+                {"role":"assistant","content": reply},
+            ]
+        print("[gen] done, len:", len(reply))
+    except Exception as e:
+        traceback.print_exc()
+        err = f"【运行异常】{type(e).__name__}: {e}"
         yield history_msgs + [
+            {"role":"user","content": user_msg},
+            {"role":"assistant","content": err},
         ]
+# ======================
 # Gradio UI（移动端友好）
+# ======================
 CSS = """
 .gradio-container{ max-width:640px; margin:auto; }
 footer{ display:none !important; }
 """
 with gr.Blocks(css=CSS, theme=gr.themes.Soft()) as demo:
+    gr.Markdown("### 🤖 Ins-v3 · Mobile Web Chat\n（happzy2633 / qwen2.5-7b-ins-v3 · 4bit 流式）")
     chat = gr.Chatbot(type="messages", height=520, show_copy_button=True)
     with gr.Row():
+        msg = gr.Textbox(placeholder="说点什么…（回车发送）", autofocus=True)
         send = gr.Button("发送", variant="primary")
     clear = gr.Button("清空对话")
     clear.click(lambda: [], outputs=[chat])
+    msg.submit(stream_chat, [chat, msg], [chat], concurrency_limit=4); msg.submit(lambda:"", None, msg)
+    send.click(stream_chat, [chat, msg], [chat], concurrency_limit=4); send.click(lambda:"", None, msg)
+# 在 Spaces 上无需 share=True
+demo.queue().launch(ssr_mode=False, show_api=False)