transformers
numpy 
scipy
gradio==3.50
librosa
soundfile
torch