Spaces:

enpeizhao
/

VLM_ODD_Online_Demo

Sleeping

enpeizhao commited on Jul 29

Commit

6f0970c

1 Parent(s): 205e158

fix error

Files changed (1) hide show

app.py CHANGED Viewed

@@ -152,11 +152,13 @@ def process_media(media, prompt):
     if isinstance(media, Image.Image):
         # Single image
         frames = [media]
     elif isinstance(media, str) and os.path.exists(media):
         # Video path, extract frames
         frames = extract_frames(media, max_frames=8)
         if not frames:
             return "No frames extracted from video"
     else:
         return "Unsupported media type"
@@ -174,7 +176,10 @@ def process_media(media, prompt):
     try:
         # Qwen-VL style processing
         text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
-        inputs = processor(text=text, videos=frames, return_tensors="pt")
         inputs = inputs.to(device)
         with torch.no_grad():
             generated_ids = model.generate(**inputs, max_new_tokens=512)
@@ -187,7 +192,10 @@ def process_media(media, prompt):
         print(f"Qwen-VL style processing failed: {e}")
         first_frame = frames[0]
         try:
-            inputs = processor(text=prompt, videos=[first_frame], return_tensors="pt").to(device)
             with torch.no_grad():
                 outputs = model.generate(**inputs, max_new_tokens=100)
             response = tokenizer.decode(outputs[0], skip_special_tokens=True)

     if isinstance(media, Image.Image):
         # Single image
         frames = [media]
+        is_image = True
     elif isinstance(media, str) and os.path.exists(media):
         # Video path, extract frames
         frames = extract_frames(media, max_frames=8)
         if not frames:
             return "No frames extracted from video"
+        is_image = False
     else:
         return "Unsupported media type"
     try:
         # Qwen-VL style processing
         text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+        if is_image:
+            inputs = processor(text=text, images=frames, return_tensors="pt")
+        else:
+            inputs = processor(text=text, videos=frames, return_tensors="pt")
         inputs = inputs.to(device)
         with torch.no_grad():
             generated_ids = model.generate(**inputs, max_new_tokens=512)
         print(f"Qwen-VL style processing failed: {e}")
         first_frame = frames[0]
         try:
+            if is_image:
+                inputs = processor(text=prompt, images=[first_frame], return_tensors="pt").to(device)
+            else:
+                inputs = processor(text=prompt, videos=[first_frame], return_tensors="pt").to(device)
             with torch.no_grad():
                 outputs = model.generate(**inputs, max_new_tokens=100)
             response = tokenizer.decode(outputs[0], skip_special_tokens=True)