Spaces:

pratikshahp
/

speech-to-text

Sleeping

pratikshahp commited on Mar 26, 2024

Commit

c0de39e

verified ·

1 Parent(s): 814f40a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,7 +8,20 @@ tokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-base-960h")
 model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")
 #load audio file
-speech, rate = librosa.load("batman1.wav",sr=16000)

 model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")
 #load audio file
+speech, rate = librosa.load("/hip-voice.m4a",sr=16000)
+import IPython.display as display
+display.Audio("batman1.wav", autoplay=True)
+input_values = tokenizer(speech, return_tensors = 'pt').input_values
+logits = model(input_values).logits
+predicted_ids = torch.argmax(logits, dim =-1)
+#decode the audio to generate text
+transcriptions = tokenizer.decode(predicted_ids[0])
+print(transcriptions)