import gradio as gr
import torch
from PIL import Image
from transformers import ColPaliForRetrieval, ColPaliProcessor

model_name = "vidore/colpali-v1.3-hf"
model = ColPaliForRetrieval.from_pretrained(model_name, torch_dtype=torch.float32).eval()
processor = ColPaliProcessor.from_pretrained(model_name)

def process_image(image):
    inputs = processor(images=image, return_tensors="pt")
    with torch.no_grad():
        outputs = model(**inputs)
    return outputs.embeddings.squeeze().tolist()

demo = gr.Interface(
    fn=process_image,
    inputs=gr.Image(type="pil"),
    outputs="json",
    examples=[["example1.jpg"], ["example2.jpg"]]
)

demo.launch()