Spaces:

robot0820
/

VLM_Test

Running

robot0820 commited on 24 days ago

Commit

21f59de

verified ·

1 Parent(s): d150731

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -28,19 +28,23 @@ vl_gpt: MultiModalityCausalLM = AutoModelForCausalLM.from_pretrained(
 # ==== 單張圖片推理函式 ====
 def chat_with_image(image, user_message):
     try:
         conversation = [
             {"role": "User", "content": "<image_placeholder>" + user_message, "images": [image]},
             {"role": "Assistant", "content": ""}
         ]
-        # 直接傳入 PIL.Image，不再使用 load_pil_images
         prepare_inputs = vl_chat_processor(
             conversations=conversation,
             images=[image],
             force_batchify=True
         ).to(vl_gpt.device)
-        # 正確 dtype 處理
         new_inputs = {}
         for k, v in prepare_inputs.items():
             if torch.is_tensor(v):
@@ -62,11 +66,12 @@ def chat_with_image(image, user_message):
             pad_token_id=tokenizer.eos_token_id,
             bos_token_id=tokenizer.bos_token_id,
             eos_token_id=tokenizer.eos_token_id,
-            max_new_tokens=128,
             do_sample=False,
             use_cache=True
         )
         answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)
         return answer

 # ==== 單張圖片推理函式 ====
 def chat_with_image(image, user_message):
     try:
+        # 建立對話
         conversation = [
             {"role": "User", "content": "<image_placeholder>" + user_message, "images": [image]},
             {"role": "Assistant", "content": ""}
         ]
+        # 直接傳入 PIL.Image，不使用 load_pil_images
         prepare_inputs = vl_chat_processor(
             conversations=conversation,
             images=[image],
             force_batchify=True
         ).to(vl_gpt.device)
+        # 🚨 將 BatchedVLChatProcessorOutput 轉 dict
+        prepare_inputs = {k: getattr(prepare_inputs, k) for k in prepare_inputs.__dataclass_fields__.keys()}
+        # 正確 dtype：input_ids/labels 保持 long，其他 tensor 轉 float16
         new_inputs = {}
         for k, v in prepare_inputs.items():
             if torch.is_tensor(v):
             pad_token_id=tokenizer.eos_token_id,
             bos_token_id=tokenizer.bos_token_id,
             eos_token_id=tokenizer.eos_token_id,
+            max_new_tokens=128,  # 減少記憶體
             do_sample=False,
             use_cache=True
         )
+        # 解碼
         answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)
         return answer