Spaces:

Dibiddo
/

QwenVL7B-test

Running

App Files Files Community

Dibiddo commited on 21 days ago

Commit

ef6d057

verified ·

1 Parent(s): 72b520a

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -11

app.py CHANGED Viewed

@@ -1,23 +1,50 @@
-from transformers import QwenVLForConditionalGeneration, AutoProcessor
 import gradio as gr
 # 加载模型和处理器
-model = QwenVLForConditionalGeneration.from_pretrained(
-    "Qwen/Qwen2.5-VL-7B-Instruct",
-    torch_dtype="auto",
     device_map="auto"
 )
 processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")
-# 定义识别和分析函数
 def recognize_and_analyze(image, text_prompt):
-    # 处理输入图像和文本提示
-    inputs = processor(images=image, text=text_prompt, return_tensors="pt").to(model.device)
-    # 生成输出结果
-    outputs = model.generate(**inputs)
-    result = processor.batch_decode(outputs, skip_special_tokens=True)
-    return result[0]
 # 设置Gradio界面
 interface = gr.Interface(

+import torch
+from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
+from qwen_vl_utils import process_vision_info
 import gradio as gr
 # 加载模型和处理器
+model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
+    "Qwen/Qwen2.5-VL-7B-Instruct",
+    torch_dtype="auto",
     device_map="auto"
 )
 processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")
+# 定义处理函数
 def recognize_and_analyze(image, text_prompt):
+    messages = [
+        {
+            "role": "user",
+            "content": [
+                {"type": "image", "image": image},
+                {"type": "text", "text": text_prompt},
+            ],
+        }
+    ]
+    # 准备推理输入数据
+    text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+    image_inputs, video_inputs = process_vision_info(messages)
+    inputs = processor(
+        text=[text],
+        images=image_inputs,
+        videos=video_inputs,
+        padding=True,
+        return_tensors="pt",
+    )
+    inputs = inputs.to(model.device)
+    # 推理：生成输出文本
+    generated_ids = model.generate(**inputs, max_new_tokens=128)
+    generated_ids_trimmed = [
+        out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
+    ]
+    output_text = processor.batch_decode(
+        generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
+    )
+    return output_text[0]
 # 设置Gradio界面
 interface = gr.Interface(