Spaces:

kaiku03
/

gemma3n-2b-it-challenge-demo

Sleeping

kaiku03 commited on Aug 6

Commit

7c3d989

1 Parent(s): 0ed9a01

set token 64

Files changed (2) hide show

agent.py CHANGED Viewed

@@ -52,7 +52,7 @@ class NewsReporterAgent:
             return_tensors="pt"
         ).to(self.device, dtype=self.model.dtype)
-        outputs = self.model.generate(**inputs, max_new_tokens=1024, disable_compile=True)
         text = self.processor.decode(outputs[0][inputs["input_ids"].shape[-1]:])
         del inputs

             return_tensors="pt"
         ).to(self.device, dtype=self.model.dtype)
+        outputs = self.model.generate(**inputs, max_new_tokens=64, disable_compile=True) # 64 token for faster inference
         text = self.processor.decode(outputs[0][inputs["input_ids"].shape[-1]:])
         del inputs

app.py CHANGED Viewed

@@ -116,9 +116,13 @@ with gr.Blocks(theme=gr.themes.Soft(), title="Multimodal News Reporter") as demo
     agent_state = gr.State(value=None)
     gr.Markdown("# 📰 Multimodal News Reporter AI")
-    gr.Markdown("Upload an audio recording and/or a relevant image. The AI will generate a news report that you can then revise and save." \
-    "Note: Sample Audio is 10 secs only to run fast" \
-    "please wait this is tunning on cpu only ")
     with gr.Row():
         with gr.Column(scale=1):

     agent_state = gr.State(value=None)
     gr.Markdown("# 📰 Multimodal News Reporter AI")
+    gr.Markdown(
+        "- Upload an audio recording and/or a relevant image; the AI will generate a news report you can revise and save.\n"
+        "- Token output is set to 64 only for faster inference. \n"
+        "- Note: This demo currently runs on CPU only.\n"
+        "- Sample audio is trimmed to 10 seconds for faster inference.\n"
+        "- Combined audio + image inference takes ~500-900 seconds; audio-only or image-only is much faster."
+    )
     with gr.Row():
         with gr.Column(scale=1):