Spaces:

robot0820
/

VLM_Test

Running

App Files Files Community

robot0820 commited on 25 days ago

Commit

d150731

verified ·

1 Parent(s): b75d3d8

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -10

app.py CHANGED Viewed

@@ -2,7 +2,6 @@ import torch
 import gradio as gr
 from transformers import AutoModelForCausalLM, BitsAndBytesConfig
 from deepseek_vl.models import VLChatProcessor, MultiModalityCausalLM
-from deepseek_vl.utils.io import load_pil_images
 # 模型路徑
 model_path = "deepseek-ai/deepseek-vl-7b-chat"
@@ -29,22 +28,19 @@ vl_gpt: MultiModalityCausalLM = AutoModelForCausalLM.from_pretrained(
 # ==== 單張圖片推理函式 ====
 def chat_with_image(image, user_message):
     try:
-        # 建立對話格式
         conversation = [
             {"role": "User", "content": "<image_placeholder>" + user_message, "images": [image]},
             {"role": "Assistant", "content": ""}
         ]
-        # 輸入處理
-        pil_images = load_pil_images(conversation)
         prepare_inputs = vl_chat_processor(
             conversations=conversation,
-            images=pil_images,
             force_batchify=True
         ).to(vl_gpt.device)
-        # 🚨 正確 dtype 處理
-        # 只將需要的 tensor 轉 float16，input_ids 必須是 long
         new_inputs = {}
         for k, v in prepare_inputs.items():
             if torch.is_tensor(v):
@@ -56,7 +52,7 @@ def chat_with_image(image, user_message):
                 new_inputs[k] = v
         prepare_inputs = new_inputs
-        # 取得輸入 embeddings
         inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)
         # 生成回答
@@ -66,12 +62,11 @@ def chat_with_image(image, user_message):
             pad_token_id=tokenizer.eos_token_id,
             bos_token_id=tokenizer.bos_token_id,
             eos_token_id=tokenizer.eos_token_id,
-            max_new_tokens=128,  # 降低生成長度以減少記憶體
             do_sample=False,
             use_cache=True
         )
-        # 解碼
         answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)
         return answer

 import gradio as gr
 from transformers import AutoModelForCausalLM, BitsAndBytesConfig
 from deepseek_vl.models import VLChatProcessor, MultiModalityCausalLM
 # 模型路徑
 model_path = "deepseek-ai/deepseek-vl-7b-chat"
 # ==== 單張圖片推理函式 ====
 def chat_with_image(image, user_message):
     try:
         conversation = [
             {"role": "User", "content": "<image_placeholder>" + user_message, "images": [image]},
             {"role": "Assistant", "content": ""}
         ]
+        # 直接傳入 PIL.Image，不再使用 load_pil_images
         prepare_inputs = vl_chat_processor(
             conversations=conversation,
+            images=[image],
             force_batchify=True
         ).to(vl_gpt.device)
+        # 正確 dtype 處理
         new_inputs = {}
         for k, v in prepare_inputs.items():
             if torch.is_tensor(v):
                 new_inputs[k] = v
         prepare_inputs = new_inputs
+        # 取得 embeddings
         inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)
         # 生成回答
             pad_token_id=tokenizer.eos_token_id,
             bos_token_id=tokenizer.bos_token_id,
             eos_token_id=tokenizer.eos_token_id,
+            max_new_tokens=128,
             do_sample=False,
             use_cache=True
         )
         answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)
         return answer