zandintel

Runtime error

App Files Files

Zandintel commited on 25 days ago

Commit

669ae84

verified ·

1 Parent(s): 3755a93

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -70

app.py CHANGED Viewed

@@ -11,9 +11,6 @@ import torch
 import torchaudio
 import gradio as gr
 from os import getenv
-import io
-import numpy as np
-import scipy.io.wavfile as wavfile
 from zonos.model import Zonos
 from zonos.conditioning import make_cond_dict, supported_language_codes
@@ -167,8 +164,7 @@ def generate_audio(
     estimated_total_steps = int(estimated_generation_duration * 86)
     def update_progress(_frame: torch.Tensor, step: int, _total_steps: int) -> bool:
-        if progress is not None:
-            progress((step, estimated_total_steps))
         return True
     codes = selected_model.generate(
@@ -188,34 +184,6 @@ def generate_audio(
     return (sr_out, wav_out.squeeze().numpy()), seed
-# Define a simpler version of the API function for the API tab
-@spaces.GPU(duration=120)
-def simple_api_generate_speech(text, language="en-us"):
-    """Simple API endpoint for TTS generation with default parameters."""
-    # Set default emotion values
-    e1, e2, e3, e4 = 1.0, 0.05, 0.05, 0.05
-    e5, e6, e7, e8 = 0.05, 0.05, 0.1, 0.2
-    # Use the existing generate_audio function with fixed parameters
-    (sr, audio_output), _ = generate_audio(
-        model_choice="Zyphra/Zonos-v0.1-transformer",
-        text=text,
-        language=language,
-        speaker_audio=None,
-        prefix_audio=None,
-        e1=e1, e2=e2, e3=e3, e4=e4,
-        e5=e5, e6=e6, e7=e7, e8=e8,
-        vq_single=0.78, fmax=24000, pitch_std=45.0,
-        speaking_rate=15.0, dnsmos_ovrl=4.0,
-        speaker_noised=False, cfg_scale=2.0,
-        min_p=0.15, seed=420, randomize_seed=False,
-        unconditional_keys=["emotion"],
-        progress=None
-    )
-    return (sr, audio_output)
 def build_interface():
     with gr.Blocks(theme='ParityError/Interstellar') as demo:
         gr.Markdown("# Zonos v0.1")
@@ -249,10 +217,10 @@ def build_interface():
                     type="filepath",
                 )
                 generate_button = gr.Button("Generate Audio")
             with gr.Column():
                 output_audio = gr.Audio(label="Generated Audio", type="numpy", autoplay=True)
         with gr.Accordion("Toggles", open=True):
             gr.Markdown(
                 "### Emotion Sliders\n"
@@ -269,7 +237,7 @@ def build_interface():
                 emotion6 = gr.Slider(0.0, 1.0, 0.05, 0.05, label="Anger")
                 emotion7 = gr.Slider(0.0, 1.0, 0.1, 0.05, label="Other")
                 emotion8 = gr.Slider(0.0, 1.0, 0.2, 0.05, label="Neutral")
             gr.Markdown(
                 "### Unconditional Toggles\n"
                 "Checking a box will make the model ignore the corresponding conditioning value and make it unconditional.\n"
@@ -290,7 +258,7 @@ def build_interface():
                     value=["emotion"],
                     label="Unconditional Keys",
                 )
         with gr.Accordion("Advanced Settings", open=False):
             with gr.Row():
                 with gr.Column():
@@ -300,48 +268,20 @@ def build_interface():
                     vq_single_slider = gr.Slider(0.5, 0.8, 0.78, 0.01, label="VQ Score")
                     pitch_std_slider = gr.Slider(0.0, 300.0, value=45.0, step=1, label="Pitch Std")
                     speaking_rate_slider = gr.Slider(5.0, 30.0, value=15.0, step=0.5, label="Speaking Rate")
                 with gr.Column():
                     gr.Markdown("## Generation Parameters")
                     cfg_scale_slider = gr.Slider(1.0, 5.0, 2.0, 0.1, label="CFG Scale")
                     min_p_slider = gr.Slider(0.0, 1.0, 0.15, 0.01, label="Min P")
                     seed_number = gr.Number(label="Seed", value=420, precision=0)
                     randomize_seed_toggle = gr.Checkbox(label="Randomize Seed (before generation)", value=True)
             prefix_audio = gr.Audio(
                 value="assets/silence_100ms.wav",
                 label="Optional Prefix Audio (continue from this audio)",
                 type="filepath",
             )
-        # API Interface
-        with gr.Tab("API"):
-            gr.Markdown("""### Text-to-Speech API""")
-            with gr.Row():
-                api_text = gr.Textbox(label="Text", value="API test sentence")
-                api_language = gr.Dropdown(choices=supported_language_codes, value="en-us", label="Language")
-            api_btn = gr.Button("Generate Speech")
-            api_output = gr.Audio(label="Generated Speech")
-            # Connect the API components
-            api_btn.click(
-                fn=simple_api_generate_speech,
-                inputs=[api_text, api_language],
-                outputs=api_output
-            )
-            # Example usage
-            gr.Examples(
-                examples=[
-                    ["This is a test of the text to speech system.", "en-us"],
-                    ["Esto es una prueba del sistema de síntesis de voz.", "es"],
-                    ["Dies ist ein Test des Text-zu-Sprache-Systems.", "de"]
-                ],
-                fn=simple_api_generate_speech,
-                inputs=[api_text, api_language],
-                outputs=api_output
-            )
         model_choice.change(
             fn=update_ui,
             inputs=[model_choice],
@@ -433,6 +373,4 @@ def build_interface():
 if __name__ == "__main__":
     demo = build_interface()
     share = getenv("GRADIO_SHARE", "True").lower() in ("true", "1", "t")
-    # Launch with queue enabled
-    demo.queue().launch(server_name="0.0.0.0", server_port=7860, share=share)

 import torchaudio
 import gradio as gr
 from os import getenv
 from zonos.model import Zonos
 from zonos.conditioning import make_cond_dict, supported_language_codes
     estimated_total_steps = int(estimated_generation_duration * 86)
     def update_progress(_frame: torch.Tensor, step: int, _total_steps: int) -> bool:
+        progress((step, estimated_total_steps))
         return True
     codes = selected_model.generate(
     return (sr_out, wav_out.squeeze().numpy()), seed
 def build_interface():
     with gr.Blocks(theme='ParityError/Interstellar') as demo:
         gr.Markdown("# Zonos v0.1")
                     type="filepath",
                 )
                 generate_button = gr.Button("Generate Audio")
             with gr.Column():
                 output_audio = gr.Audio(label="Generated Audio", type="numpy", autoplay=True)
         with gr.Accordion("Toggles", open=True):
             gr.Markdown(
                 "### Emotion Sliders\n"
                 emotion6 = gr.Slider(0.0, 1.0, 0.05, 0.05, label="Anger")
                 emotion7 = gr.Slider(0.0, 1.0, 0.1, 0.05, label="Other")
                 emotion8 = gr.Slider(0.0, 1.0, 0.2, 0.05, label="Neutral")
             gr.Markdown(
                 "### Unconditional Toggles\n"
                 "Checking a box will make the model ignore the corresponding conditioning value and make it unconditional.\n"
                     value=["emotion"],
                     label="Unconditional Keys",
                 )
         with gr.Accordion("Advanced Settings", open=False):
             with gr.Row():
                 with gr.Column():
                     vq_single_slider = gr.Slider(0.5, 0.8, 0.78, 0.01, label="VQ Score")
                     pitch_std_slider = gr.Slider(0.0, 300.0, value=45.0, step=1, label="Pitch Std")
                     speaking_rate_slider = gr.Slider(5.0, 30.0, value=15.0, step=0.5, label="Speaking Rate")
                 with gr.Column():
                     gr.Markdown("## Generation Parameters")
                     cfg_scale_slider = gr.Slider(1.0, 5.0, 2.0, 0.1, label="CFG Scale")
                     min_p_slider = gr.Slider(0.0, 1.0, 0.15, 0.01, label="Min P")
                     seed_number = gr.Number(label="Seed", value=420, precision=0)
                     randomize_seed_toggle = gr.Checkbox(label="Randomize Seed (before generation)", value=True)
             prefix_audio = gr.Audio(
                 value="assets/silence_100ms.wav",
                 label="Optional Prefix Audio (continue from this audio)",
                 type="filepath",
             )
         model_choice.change(
             fn=update_ui,
             inputs=[model_choice],
 if __name__ == "__main__":
     demo = build_interface()
     share = getenv("GRADIO_SHARE", "True").lower() in ("true", "1", "t")
+    demo.launch(server_name="0.0.0.0", server_port=7860, share=share, ssr_mode=False)