MBZUAI
/

artst_asr

@@ -48,7 +48,7 @@ model = SpeechT5ForSpeechToText.from_pretrained("mbzuai/artst_asr").to(device)
 audio, sr = sf.read("audio.wav")
 inputs = processor(audio=audio, sampling_rate=sr, return_tensors="pt")
-predicted_ids = model.generate(**inputs.to(device), max_length=150)
 transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
 print(transcription[0])

 audio, sr = sf.read("audio.wav")
 inputs = processor(audio=audio, sampling_rate=sr, return_tensors="pt")
+predicted_ids = model.generate(**inputs.to(device), max_length=150, num_beams=10)
 transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
 print(transcription[0])