Spaces:

Loren
/

Voxtral_Mini_Evaluation

Running on Zero

Loren commited on Jul 24

Commit

2029809

verified ·

1 Parent(s): d307d89

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -33,8 +33,8 @@ def process_transcript(model, processor, language, audio_path):
     else:
         id_language = dict_languages[language]
         inputs = processor.apply_transcrition_request(language=id_language, audio=audio_path, model_id=model_name)
-        inputs = inputs.to(device, dtype=torch.bfloat16)
         outputs = model.generate(**inputs, max_new_tokens=MAX_TOKENS)
         decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
@@ -59,20 +59,21 @@ with gr.Blocks(title="Transcription") as transcript:
         with gr.Column():
             sel_audio = gr.Audio(sources=["microphone", "upload"], type="filepath", label="Upload an audio file or record via microphone:")
     with gr.Row():
         with gr.Column():
             submit_transcript = gr.Button("Extract Transcription", variant="primary")
             text_transcript = gr.Textbox(label="Generated Response", lines=10)
-    example = [["mapo_tofu.mp3"]]
-    gr.Examples(
-        examples=example,
-        inputs=sel_audio,
-        outputs=None,
-        fn=None,
-        cache_examples=False,
-        run_on_click=False
-    )
     submit_transcript.click(
         fn=lambda v1, v2: process_transcript(model, processor, v1, v2),

     else:
         id_language = dict_languages[language]
         inputs = processor.apply_transcrition_request(language=id_language, audio=audio_path, model_id=model_name)
+#        inputs = inputs.to(device, dtype=torch.bfloat16)
+        inputs = {k: v.to(device, dtype=torch.bfloat16) for k, v in inputs.items()}
         outputs = model.generate(**inputs, max_new_tokens=MAX_TOKENS)
         decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
         with gr.Column():
             sel_audio = gr.Audio(sources=["microphone", "upload"], type="filepath", label="Upload an audio file or record via microphone:")
+            example = [["mapo_tofu.mp3"]]
+            gr.Examples(
+                examples=example,
+                inputs=sel_audio,
+                outputs=None,
+                fn=None,
+                cache_examples=False,
+                run_on_click=False
+            )
     with gr.Row():
         with gr.Column():
             submit_transcript = gr.Button("Extract Transcription", variant="primary")
             text_transcript = gr.Textbox(label="Generated Response", lines=10)
     submit_transcript.click(
         fn=lambda v1, v2: process_transcript(model, processor, v1, v2),