Spaces:

Steveeeeeeen
/

Zonos

Running on Zero

App Files Files Community

Steveeeeeeen HF staff

multimodalart HF staff commited on 7 days ago

Commit

df1e17e

verified ·

1 Parent(s): b981444

Suggested UI changes (#4)

Browse files

- Suggested UI changes (d7c8d6c6a40c063261c6bf51c94a520dd80ab8f4)

Co-authored-by: Apolinário from multimodal AI art <[email protected]>

Files changed (1) hide show

app.py +57 -51

app.py CHANGED Viewed

@@ -186,14 +186,10 @@ def generate_audio(
 def build_interface():
     with gr.Blocks(theme='ParityError/Interstellar') as demo:
         with gr.Row():
             with gr.Column():
-                model_choice = gr.Dropdown(
-                    choices=MODEL_NAMES,
-                    value="Zyphra/Zonos-v0.1-transformer",
-                    label="Zonos Model Type",
-                    info="Select the model variant to use.",
-                )
                 text = gr.Textbox(
                     label="Text to Synthesize",
                     value="Zonos uses eSpeak for text to phoneme conversion!",
@@ -203,38 +199,45 @@ def build_interface():
                 language = gr.Dropdown(
                     choices=supported_language_codes,
                     value="en-us",
-                    label="Language Code",
-                    info="Select a language code.",
                 )
-            prefix_audio = gr.Audio(
-                value="assets/silence_100ms.wav",
-                label="Optional Prefix Audio (continue from this audio)",
-                type="filepath",
-            )
-            with gr.Column():
                 speaker_audio = gr.Audio(
                     label="Optional Speaker Audio (for cloning)",
                     type="filepath",
                 )
-                speaker_noised_checkbox = gr.Checkbox(label="Denoise Speaker?", value=False)
-        with gr.Row():
-            with gr.Column():
-                gr.Markdown("## Conditioning Parameters")
-                dnsmos_slider = gr.Slider(1.0, 5.0, value=4.0, step=0.1, label="DNSMOS Overall")
-                fmax_slider = gr.Slider(0, 24000, value=24000, step=1, label="Fmax (Hz)")
-                vq_single_slider = gr.Slider(0.5, 0.8, 0.78, 0.01, label="VQ Score")
-                pitch_std_slider = gr.Slider(0.0, 300.0, value=45.0, step=1, label="Pitch Std")
-                speaking_rate_slider = gr.Slider(5.0, 30.0, value=15.0, step=0.5, label="Speaking Rate")
             with gr.Column():
-                gr.Markdown("## Generation Parameters")
-                cfg_scale_slider = gr.Slider(1.0, 5.0, 2.0, 0.1, label="CFG Scale")
-                min_p_slider = gr.Slider(0.0, 1.0, 0.15, 0.01, label="Min P")
-                seed_number = gr.Number(label="Seed", value=420, precision=0)
-                randomize_seed_toggle = gr.Checkbox(label="Randomize Seed (before generation)", value=True)
-        with gr.Accordion("Advanced Parameters", open=False):
             gr.Markdown(
                 "### Unconditional Toggles\n"
                 "Checking a box will make the model ignore the corresponding conditioning value and make it unconditional.\n"
@@ -255,26 +258,29 @@ def build_interface():
                     value=["emotion"],
                     label="Unconditional Keys",
                 )
-            gr.Markdown(
-                "### Emotion Sliders\n"
-                "Warning: The way these sliders work is not intuitive and may require some trial and error to get the desired effect.\n"
-                "Certain configurations can cause the model to become unstable. Setting emotion to unconditional may help."
-            )
             with gr.Row():
-                emotion1 = gr.Slider(0.0, 1.0, 1.0, 0.05, label="Happiness")
-                emotion2 = gr.Slider(0.0, 1.0, 0.05, 0.05, label="Sadness")
-                emotion3 = gr.Slider(0.0, 1.0, 0.05, 0.05, label="Disgust")
-                emotion4 = gr.Slider(0.0, 1.0, 0.05, 0.05, label="Fear")
-            with gr.Row():
-                emotion5 = gr.Slider(0.0, 1.0, 0.05, 0.05, label="Surprise")
-                emotion6 = gr.Slider(0.0, 1.0, 0.05, 0.05, label="Anger")
-                emotion7 = gr.Slider(0.0, 1.0, 0.1, 0.05, label="Other")
-                emotion8 = gr.Slider(0.0, 1.0, 0.2, 0.05, label="Neutral")
-        with gr.Column():
-            generate_button = gr.Button("Generate Audio")
-            output_audio = gr.Audio(label="Generated Audio", type="numpy", autoplay=True)
         model_choice.change(
             fn=update_ui,

 def build_interface():
     with gr.Blocks(theme='ParityError/Interstellar') as demo:
+        gr.Markdown("# Zonos v0.1")
+        gr.Markdown("State of the art text-to-speech model [[model]](https://huggingface.co/collections/Zyphra/zonos-v01-67ac661c85e1898670823b4f), [[blog]](https://www.zyphra.com/post/beta-release-of-zonos-v0-1), [[Zyphra Audio (hosted service)]](https://maia.zyphra.com/sign-in?redirect_url=https%3A%2F%2Fmaia.zyphra.com%2Faudio) ")
         with gr.Row():
             with gr.Column():
                 text = gr.Textbox(
                     label="Text to Synthesize",
                     value="Zonos uses eSpeak for text to phoneme conversion!",
                 language = gr.Dropdown(
                     choices=supported_language_codes,
                     value="en-us",
+                    label="Language",
+                )
+                model_choice = gr.Dropdown(
+                    choices=MODEL_NAMES,
+                    value="Zyphra/Zonos-v0.1-transformer",
+                    label="Zonos Model Type",
+                    info="Select the model variant to use.",
                 )
                 speaker_audio = gr.Audio(
                     label="Optional Speaker Audio (for cloning)",
                     type="filepath",
                 )
+                generate_button = gr.Button("Generate Audio")
+            #with gr.Column():
+                speaker_noised_checkbox = gr.Checkbox(
+                    label="Denoise Speaker?",
+                    value=False,
+                    visible=False
+                )
             with gr.Column():
+                output_audio = gr.Audio(label="Generated Audio", type="numpy", autoplay=True)
+        with gr.Accordion("Toggles", open=True):
+            gr.Markdown(
+                "### Emotion Sliders\n"
+                "Warning: The way these sliders work is not intuitive and may require some trial and error to get the desired effect.\n"
+                "Certain configurations can cause the model to become unstable. Setting emotion to unconditional may help."
+            )
+            with gr.Row():
+                emotion1 = gr.Slider(0.0, 1.0, 1.0, 0.05, label="Happiness")
+                emotion2 = gr.Slider(0.0, 1.0, 0.05, 0.05, label="Sadness")
+                emotion3 = gr.Slider(0.0, 1.0, 0.05, 0.05, label="Disgust")
+                emotion4 = gr.Slider(0.0, 1.0, 0.05, 0.05, label="Fear")
+            with gr.Row():
+                emotion5 = gr.Slider(0.0, 1.0, 0.05, 0.05, label="Surprise")
+                emotion6 = gr.Slider(0.0, 1.0, 0.05, 0.05, label="Anger")
+                emotion7 = gr.Slider(0.0, 1.0, 0.1, 0.05, label="Other")
+                emotion8 = gr.Slider(0.0, 1.0, 0.2, 0.05, label="Neutral")
             gr.Markdown(
                 "### Unconditional Toggles\n"
                 "Checking a box will make the model ignore the corresponding conditioning value and make it unconditional.\n"
                     value=["emotion"],
                     label="Unconditional Keys",
                 )
+        with gr.Accordion("Advanced Settings", open=False):
             with gr.Row():
+                with gr.Column():
+                    gr.Markdown("## Conditioning Parameters")
+                    dnsmos_slider = gr.Slider(1.0, 5.0, value=4.0, step=0.1, label="DNSMOS Overall")
+                    fmax_slider = gr.Slider(0, 24000, value=24000, step=1, label="Fmax (Hz)")
+                    vq_single_slider = gr.Slider(0.5, 0.8, 0.78, 0.01, label="VQ Score")
+                    pitch_std_slider = gr.Slider(0.0, 300.0, value=45.0, step=1, label="Pitch Std")
+                    speaking_rate_slider = gr.Slider(5.0, 30.0, value=15.0, step=0.5, label="Speaking Rate")
+                with gr.Column():
+                    gr.Markdown("## Generation Parameters")
+                    cfg_scale_slider = gr.Slider(1.0, 5.0, 2.0, 0.1, label="CFG Scale")
+                    min_p_slider = gr.Slider(0.0, 1.0, 0.15, 0.01, label="Min P")
+                    seed_number = gr.Number(label="Seed", value=420, precision=0)
+                    randomize_seed_toggle = gr.Checkbox(label="Randomize Seed (before generation)", value=True)
+            prefix_audio = gr.Audio(
+                value="assets/silence_100ms.wav",
+                label="Optional Prefix Audio (continue from this audio)",
+                type="filepath",
+            )
         model_choice.change(
             fn=update_ui,