Spaces:

V-E-D
/

paligamma

Sleeping

ved1beta commited on Jan 23

Commit

0dc6935

1 Parent(s): 45f9b3d

appready

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,8 +1,38 @@
 import gradio as gr
-def greet(name):
-    return "Hello " + name + "!!"
-demo = gr.Interface(fn=greet, inputs="text", outputs="text")
-demo.launch()

 import gradio as gr
+import torch
+from PIL import Image
+import requests
+from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
+# Load the PaliGemma model and processor
+model_id = "google/paligemma-3b-mix-224"
+model = PaliGemmaForConditionalGeneration.from_pretrained(model_id)
+processor = AutoProcessor.from_pretrained(model_id)
+def generate_response(image, prompt):
+    """Generate response for image and prompt."""
+    if image is None:
+        return "Please upload an image."
+    try:
+        inputs = processor(image, prompt, return_tensors="pt")
+        output = model.generate(**inputs, max_new_tokens=50)
+        response = processor.decode(output[0], skip_special_tokens=True)[inputs.input_ids.shape[1]:]
+        return response
+    except Exception as e:
+        return f"Error: {str(e)}"
+# Gradio interface
+demo = gr.Interface(
+    fn=generate_response,
+    inputs=[
+        gr.Image(type="pil", label="Upload Image"),
+        gr.Textbox(label="Prompt", placeholder="What do you want to know?")
+    ],
+    outputs=gr.Textbox(label="Model Response"),
+    title="PaliGemma Vision-Language Model",
+    description="Ask questions about uploaded images"
+)
+if __name__ == "__main__":
+    demo.launch()

requirements.txt ADDED Viewed

+torch>=2.0.0
+transformers>=4.35.0
+gradio>=4.0.0
+pillow>=9.0.0
+requests>=2.28.0