Spaces:

hf-audio
/

vocos-bark

Runtime error

Vaibhav Srivastav commited on Oct 16, 2023

Commit

0b28f04

1 Parent(s): e134a02

up

Files changed (1) hide show

app.py CHANGED Viewed

@@ -35,7 +35,7 @@ speaker_embeddings = sorted([key for key in processor.speaker_embeddings.keys()
 SAMPLE_RATE = 24_000
-vocos = Vocos.from_pretrained("hubertsiuzdak/vocos-encodec-24khz-v2").to(device)
 # import model
 if device == "cpu":
@@ -45,7 +45,7 @@ else:
     bark = bark.to_bettertransformer()
-# streaming inference
 def generate_audio(text, voice_preset = None, lag = 0):
     if voice_preset not in speaker_embeddings:
         voice_preset = None
@@ -63,13 +63,10 @@ def generate_audio(text, voice_preset = None, lag = 0):
     print("Fine tokens generated")
     with torch.no_grad():
-        encodec_waveform = bark.codec_decode(fine_output)
         features = vocos.codes_to_features(fine_output.transpose(0,1))
         vocos_waveform = vocos.decode(features, bandwidth_id=torch.tensor([2], device=device))
-    return (SAMPLE_RATE, encodec_waveform.cpu().squeeze().numpy()), (SAMPLE_RATE, vocos_waveform.cpu().squeeze().numpy())
 # Gradio blocks demo
@@ -90,9 +87,8 @@ with gr.Blocks() as demo_blocks:
         btn = gr.Button("Bark with Vocos TTS")
     with gr.Row():
-        out_audio_encodec = gr.Audio(type="numpy", autoplay=False, label="original output", show_label=True)
         out_audio_vocos = gr.Audio(type="numpy", autoplay=False, label="vocos enhanced output", show_label=True)
-        btn.click(generate_audio, [inp_text, dd], [out_audio_encodec, out_audio_vocos])
 demo_blocks.queue().launch(debug=True)

 SAMPLE_RATE = 24_000
+vocos = Vocos.from_pretrained("charactr/vocos-encodec-24khz").to(device)
 # import model
 if device == "cpu":
     bark = bark.to_bettertransformer()
+# Inference
 def generate_audio(text, voice_preset = None, lag = 0):
     if voice_preset not in speaker_embeddings:
         voice_preset = None
     print("Fine tokens generated")
     with torch.no_grad():
         features = vocos.codes_to_features(fine_output.transpose(0,1))
         vocos_waveform = vocos.decode(features, bandwidth_id=torch.tensor([2], device=device))
+    return (SAMPLE_RATE, vocos_waveform.cpu().squeeze().numpy())
 # Gradio blocks demo
         btn = gr.Button("Bark with Vocos TTS")
     with gr.Row():
         out_audio_vocos = gr.Audio(type="numpy", autoplay=False, label="vocos enhanced output", show_label=True)
+        btn.click(generate_audio, [inp_text, dd], [out_audio_vocos])
 demo_blocks.queue().launch(debug=True)