Transformers_whisper_cleft

Sleeping

App Files Files Community

jcho02 commited on Apr 2, 2024

Commit

a9b6797

verified ·

1 Parent(s): 73b065a

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -20

app.py CHANGED Viewed

@@ -67,35 +67,49 @@ def predict(audio_data, sampling_rate, config):
     input_features, decoder_input_ids = prepare_data(audio_data, sampling_rate, config["encoder"])
     model = SpeechClassifier(config).to(device)
     model.load_state_dict(torch.hub.load_state_dict_from_url("https://huggingface.co/jcho02/whisper_cleft/resolve/main/pytorch_model.bin", map_location=device))
-    model.eval()
     with torch.no_grad():
         logits = model(input_features, decoder_input_ids)
         predicted_ids = int(torch.argmax(logits, dim=-1))
     return predicted_ids
-# Unified Gradio interface function
-def gradio_interface(audio_input):
-    if isinstance(audio_input, tuple):
-        # If the input is a tuple, it's from the microphone
-        audio_data, sample_rate = audio_input
-    else:
-        # Otherwise, it's an uploaded file
-        with open(audio_input, "rb") as f:
-            audio_data = np.frombuffer(f.read(), np.int16)
-        sample_rate = 16000  # Assume 16kHz sample rate for uploaded files
-    prediction = predict(audio_data, sample_rate, config)
     label = "Hypernasality Detected" if prediction == 1 else "No Hypernasality Detected"
     return label
-# Create Gradio interface
-demo = gr.Interface(
-    fn=gradio_interface,
-    inputs=gr.Audio(type="numpy", label="Upload or Record Audio"),
-    outputs=gr.Textbox(label="Prediction")
-)
-# Launch the demo
 demo.launch(debug=True)

     input_features, decoder_input_ids = prepare_data(audio_data, sampling_rate, config["encoder"])
     model = SpeechClassifier(config).to(device)
+    # Here we load the model from Hugging Face Hub
     model.load_state_dict(torch.hub.load_state_dict_from_url("https://huggingface.co/jcho02/whisper_cleft/resolve/main/pytorch_model.bin", map_location=device))
+    model.eval()
     with torch.no_grad():
         logits = model(input_features, decoder_input_ids)
         predicted_ids = int(torch.argmax(logits, dim=-1))
     return predicted_ids
+# Gradio Interface functions
+def gradio_file_interface(uploaded_file):
+    # Assuming the uploaded_file is a filepath (str)
+    with open(uploaded_file, "rb") as f:
+        audio_data = np.frombuffer(f.read(), np.int16)
+    prediction = predict(audio_data, 16000, config)  # Assume 16kHz sample rate
+    label = "Hypernasality Detected" if prediction == 1 else "No Hypernasality Detected"
+    return label
+def gradio_mic_interface(mic_input):
+    # mic_input is a dictionary with 'data' and 'sample_rate' keys
+    prediction = predict(mic_input['data'], mic_input['sample_rate'], config)
     label = "Hypernasality Detected" if prediction == 1 else "No Hypernasality Detected"
     return label
+# Initialize Blocks
+demo = gr.Blocks()
+# Define the interfaces inside the Blocks context
+with demo:
+    #mic_transcribe = gr.Interface(
+    #    fn=gradio_mic_interface,
+    #    inputs=gr.Audio(type="numpy"),  # Use numpy for real-time audio like microphone
+    #    outputs=gr.Textbox(label="Prediction")
+    #)
+    file_transcribe = gr.Interface(
+        fn=gradio_file_interface,
+        inputs=gr.Audio(type="filepath"),  # Use filepath for uploaded audio files
+        outputs=gr.Textbox(label="Prediction")
+    )
+    # Combine interfaces into a tabbed interface
+    #gr.TabbedInterface([mic_transcribe, file_transcribe], ["Transcribe Microphone", "Transcribe Audio File"])
+# Launch the demo with debugging enabled
 demo.launch(debug=True)