Spaces:

owaski-demo
/

Demo

Sleeping

App Files Files Community

chinmaydan commited on Feb 27, 2023

Commit

2fa0634

1 Parent(s): d4d00fe

prints language selected and the transcribed text in english

Browse files

Files changed (1) hide show

app.py +38 -6

app.py CHANGED Viewed

@@ -6,8 +6,23 @@ import whisper
 model = whisper.load_model("small")
-def predict(audio, mic_audio=None):
     # audio = tuple (sample_rate, frames) or (sample_rate, (frames, channels))
     if mic_audio is not None:
         input_audio = mic_audio
@@ -20,14 +35,18 @@ def predict(audio, mic_audio=None):
     audio = whisper.pad_or_trim(audio)
     mel = whisper.log_mel_spectrogram(audio).to(model.device)
-    language, probs = model.detect_language(mel)
     options = whisper.DecodingOptions(fp16 = False)
     result = whisper.decode(model, mel, options)
-    print(result.text)
-    return result.text, result.language
@@ -43,6 +62,19 @@ gr.Interface(
     inputs=[
         gr.Audio(label="Upload Speech", source="upload", type="filepath"),
         gr.Audio(label="Record Speech", source="microphone", type="filepath"),
     ],
     outputs=[
         gr.Text(label="Transcription"),

 model = whisper.load_model("small")
+language_id_lookup = {
+            "English"   : "en",
+            "German"    : "de",
+            "Greek"     : "el",
+            "Spanish"   : "es",
+            "Finnish"   : "fi",
+            "Russian"   : "ru",
+            "Hungarian" : "hu",
+            "Dutch"     : "nl",
+            "French"    : "fr",
+            'Polish'    : "pl",
+            'Portuguese': "pt",
+            'Italian'   : "it",
+            }
+def predict(audio, mic_audio=None, language):
     # audio = tuple (sample_rate, frames) or (sample_rate, (frames, channels))
     if mic_audio is not None:
         input_audio = mic_audio
     audio = whisper.pad_or_trim(audio)
     mel = whisper.log_mel_spectrogram(audio).to(model.device)
     options = whisper.DecodingOptions(fp16 = False)
     result = whisper.decode(model, mel, options)
+    if(language == "Detect Language"):
+        outLanguage, probs = model.detect_language(mel)
+    else:
+        outLanguage = language_id_lookup(language.split()[0])
+    print(result.text + " " + outLanguage)
+    return result.text, outLanguage
     inputs=[
         gr.Audio(label="Upload Speech", source="upload", type="filepath"),
         gr.Audio(label="Record Speech", source="microphone", type="filepath"),
+        gr.inputs.Dropdown(['English Text',
+                            'German Text',
+                            'Greek Text',
+                            'Spanish Text',
+                            'Finnish Text',
+                            'Russian Text',
+                            'Hungarian Text',
+                            'Dutch Text',
+                            'French Text',
+                            'Polish Text',
+                            'Portuguese Text',
+                            'Italian Text',
+                            'Detect Language'], type="value", default='English Text', label="Select the Language of the that you are speaking in.")
     ],
     outputs=[
         gr.Text(label="Transcription"),