Spaces:

Sanket17
/

OmniPar

Build error

Sanket17 commited on Dec 25, 2024

Commit

566cff7

1 Parent(s): 95f8930

updaed files

Files changed (3) hide show

requirements.txt CHANGED Viewed

@@ -4,4 +4,5 @@ torch==2.0.0
 transformers
 pydantic
 python-multipart
-pillow

 transformers
 pydantic
 python-multipart
+pillow
+requests

src/api.py CHANGED Viewed

@@ -1,17 +1,27 @@
 from fastapi import FastAPI
 from .model import load_model
 from .schemas import Query
 app = FastAPI()
 processor, model = load_model()
 @app.post("/predict")
 async def predict(query: Query):
-    inputs = processor(images=query.image_url, text=query.question, return_tensors="pt")
-    outputs = model(**inputs)
-    predicted_answer = processor.decode(outputs.logits.argmax(-1)[0], skip_special_tokens=True)
     return {"answer": predicted_answer}
 @app.get("/")
 async def root():
-    return {"message": "OmniParser API is running. Use /predict endpoint for predictions."}

 from fastapi import FastAPI
 from .model import load_model
 from .schemas import Query
+import requests
+from PIL import Image
+from io import BytesIO
 app = FastAPI()
 processor, model = load_model()
 @app.post("/predict")
 async def predict(query: Query):
+    # Download and process the image
+    response = requests.get(query.image_url)
+    image = Image.open(BytesIO(response.content))
+    # Process the image and question
+    inputs = processor(images=image, text=query.question, return_tensors="pt")
+    outputs = model.generate(**inputs)
+    # Get the predicted answer
+    predicted_answer = processor.decode(outputs[0], skip_special_tokens=True)
     return {"answer": predicted_answer}
 @app.get("/")
 async def root():
+    return {"message": "Visual QA API is running. Use /predict endpoint for predictions."}

src/model.py CHANGED Viewed

@@ -1,6 +1,6 @@
-from transformers import AutoProcessor, AutoModelForVisualQuestionAnswering
 def load_model():
-    processor = AutoProcessor.from_pretrained("microsoft/OmniParser")
-    model = AutoModelForVisualQuestionAnswering.from_pretrained("microsoft/OmniParser")
     return processor, model

+from transformers import BlipProcessor, BlipForQuestionAnswering
 def load_model():
+    processor = BlipProcessor.from_pretrained("Salesforce/blip-vqa-base")
+    model = BlipForQuestionAnswering.from_pretrained("Salesforce/blip-vqa-base")
     return processor, model