Spaces:

mikr
/

w2v-bert2-czech

Sleeping

mikr commited on Feb 3, 2024

Commit

7df6e8c

1 Parent(s): 86b5f8f

fix

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import gradio as gr
 import torch
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor, pipeline
@@ -23,9 +24,20 @@ def transcribe(file_upload):
     text = pipe(file)["text"]
     return warn_output + text
 def transcribe2(file_upload):
     with torch.inference_mode():
-        input_values = processor(file_upload, sampling_rate=16000).input_values[0]
         input_values = torch.tensor(input_values, device=device).unsqueeze(0)
         logits = model(input_values).logits
         pred_ids = torch.argmax(logits, dim=-1)

 import gradio as gr
+import soundfile as sf
 import torch
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor, pipeline
     text = pipe(file)["text"]
     return warn_output + text
+def readwav(a_f):
+    wav, sr = sf.read(a_f, dtype=np.float32)
+    if len(wav.shape) == 2:
+        wav = wav.mean(1)
+    if sr != 16000:
+        wlen = int(wav.shape[0] / sr * 16000)
+        wav = signal.resample(wav, wlen)
+    return wav
 def transcribe2(file_upload):
+    wav = readwav(file_upload)
     with torch.inference_mode():
+        input_values = processor(wav, sampling_rate=16000).input_values[0]
         input_values = torch.tensor(input_values, device=device).unsqueeze(0)
         logits = model(input_values).logits
         pred_ids = torch.argmax(logits, dim=-1)

requirements.txt CHANGED Viewed

@@ -1,2 +1,3 @@
 git+https://github.com/huggingface/transformers
 torch

 git+https://github.com/huggingface/transformers
 torch
+soundfile