Spaces:

mskov
/

test

Runtime error

mskov commited on Aug 23, 2023

Commit

d490aec

1 Parent(s): 21f142f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,6 +11,7 @@ import evaluate
 from datasets import load_dataset, Audio, disable_caching, set_caching_enabled
 import gradio as gr
 import torch
 set_caching_enabled(False)
 disable_caching()
@@ -28,7 +29,16 @@ model = WhisperForConditionalGeneration.from_pretrained("mskov/whisper-small-esc
 # Evaluate the model
 # model.eval()
 #print("model.eval ", model.eval())
 def map_to_pred(batch):
     audio = batch["audio"]
     input_features = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt").input_features
     batch["reference"] = processor.tokenizer._normalize(batch['sentence'])

 from datasets import load_dataset, Audio, disable_caching, set_caching_enabled
 import gradio as gr
 import torch
+import re
 set_caching_enabled(False)
 disable_caching()
 # Evaluate the model
 # model.eval()
 #print("model.eval ", model.eval())
+# Remove brackets and extra spaces
 def map_to_pred(batch):
+    cleaned_transcription = re.sub(r'\[[^\]]+\]', '', batch).strip()
+    cleaned_transcription = preprocess_transcription(batch['sentence'])
+    normalized_transcription = processor.tokenizer._normalize(cleaned_transcription)
     audio = batch["audio"]
     input_features = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt").input_features
     batch["reference"] = processor.tokenizer._normalize(batch['sentence'])