Spaces:

yasserrmd
/

VibeVoice

Running on Zero

App Files Files Community

yasserrmd commited on 12 days ago

Commit

2565173

verified ·

1 Parent(s): 03e7073

Update app.py

Browse files

Files changed (1) hide show

app.py +167 -55

app.py CHANGED Viewed

@@ -73,22 +73,23 @@ class VibeVoiceDemo:
                          cfg_scale: float = 1.3):
         """Final audio generation only (no streaming)."""
         self.is_generating = True
         if not script.strip():
             raise gr.Error("Please provide a script.")
         if num_speakers < 1 or num_speakers > 4:
             raise gr.Error("Number of speakers must be 1–4.")
         selected = [speaker_1, speaker_2, speaker_3, speaker_4][:num_speakers]
         for i, sp in enumerate(selected):
             if not sp or sp not in self.available_voices:
                 raise gr.Error(f"Invalid speaker {i+1} selection.")
         voice_samples = [self.read_audio(self.available_voices[sp]) for sp in selected]
         if any(len(v) == 0 for v in voice_samples):
             raise gr.Error("Failed to load one or more voice samples.")
         # format script
         lines = script.strip().split("\n")
         formatted = []
@@ -102,7 +103,7 @@ class VibeVoiceDemo:
                 sp_id = i % num_speakers
                 formatted.append(f"Speaker {sp_id}: {line}")
         formatted_script = "\n".join(formatted)
         # processor input
         inputs = self.processor(
             text=[formatted_script],
@@ -110,7 +111,7 @@ class VibeVoiceDemo:
             padding=True,
             return_tensors="pt"
         )
         start = time.time()
         outputs = self.model.generate(
             **inputs,
@@ -118,35 +119,47 @@ class VibeVoiceDemo:
             tokenizer=self.processor.tokenizer,
             verbose=False
         )
-        # --- handle model output ---
         if hasattr(outputs, "audio"):
             audio = outputs.audio
-        elif hasattr(outputs, "audios"):
             audio = outputs.audios[0]
         else:
-            raise gr.Error("Model did not return audio in expected format.")
         if torch.is_tensor(audio):
             audio = audio.float().cpu().numpy()
         if audio.ndim > 1:
             audio = audio.squeeze()
         sample_rate = 24000
-        audio16 = convert_to_16_bit_wav(audio)
-        # --- save automatically to disk ---
         os.makedirs("outputs", exist_ok=True)
         timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
         file_path = os.path.join("outputs", f"podcast_{timestamp}.wav")
-        sf.write(file_path, audio16, sample_rate)
         print(f"💾 Saved podcast to {file_path}")
-        total_dur = len(audio16) / sample_rate
         log = f"✅ Generation complete in {time.time()-start:.1f}s, {total_dur:.1f}s audio\nSaved to {file_path}"
         self.is_generating = False
-        return (sample_rate, audio16), log
     def load_example_scripts(self):
         examples_dir = os.path.join(os.path.dirname(__file__), "text_examples")
@@ -175,42 +188,112 @@ def convert_to_16_bit_wav(data):
 def create_demo_interface(demo_instance: VibeVoiceDemo):
-    with gr.Blocks(
-        title="VibeVoice - AI Podcast Generator",
-        theme=gr.themes.Soft(primary_hue="blue", secondary_hue="purple")
-    ) as interface:
-        gr.Markdown("## 🎙️ VibeVoice Podcast Generator (Final Audio Only)")
-        num_speakers = gr.Slider(1, 4, value=2, step=1, label="Number of Speakers")
-        available_speaker_names = list(demo_instance.available_voices.keys())
-        default_speakers = available_speaker_names[:4]
-        speaker_selections = []
-        for i in range(4):
-            speaker = gr.Dropdown(
-                choices=available_speaker_names,
-                value=default_speakers[i] if i < len(default_speakers) else None,
-                label=f"Speaker {i+1}",
-                visible=(i < 2)
-            )
-            speaker_selections.append(speaker)
-        cfg_scale = gr.Slider(1.0, 2.0, value=1.3, step=0.05, label="CFG Scale")
-        script_input = gr.Textbox(
-            label="Podcast Script",
-            placeholder="Enter your script here...",
-            lines=10
         )
-        generate_btn = gr.Button("🚀 Generate Podcast")
-        audio_output = gr.Audio(
-            label="Generated Podcast (Download)",
-            type="numpy",
-            show_download_button=True
         )
-        log_output = gr.Textbox(label="Log", interactive=False, lines=5)
         def generate_podcast_wrapper(num_speakers, script, *speakers_and_params):
             try:
@@ -233,10 +316,39 @@ def create_demo_interface(demo_instance: VibeVoiceDemo):
         generate_btn.click(
             fn=generate_podcast_wrapper,
             inputs=[num_speakers, script_input] + speaker_selections + [cfg_scale],
-            outputs=[audio_output, log_output]
         )
-        return interface
 def run_demo(

                          cfg_scale: float = 1.3):
         """Final audio generation only (no streaming)."""
         self.is_generating = True
         if not script.strip():
             raise gr.Error("Please provide a script.")
         if num_speakers < 1 or num_speakers > 4:
             raise gr.Error("Number of speakers must be 1–4.")
+        # collect speakers
         selected = [speaker_1, speaker_2, speaker_3, speaker_4][:num_speakers]
         for i, sp in enumerate(selected):
             if not sp or sp not in self.available_voices:
                 raise gr.Error(f"Invalid speaker {i+1} selection.")
         voice_samples = [self.read_audio(self.available_voices[sp]) for sp in selected]
         if any(len(v) == 0 for v in voice_samples):
             raise gr.Error("Failed to load one or more voice samples.")
         # format script
         lines = script.strip().split("\n")
         formatted = []
                 sp_id = i % num_speakers
                 formatted.append(f"Speaker {sp_id}: {line}")
         formatted_script = "\n".join(formatted)
         # processor input
         inputs = self.processor(
             text=[formatted_script],
             padding=True,
             return_tensors="pt"
         )
         start = time.time()
         outputs = self.model.generate(
             **inputs,
             tokenizer=self.processor.tokenizer,
             verbose=False
         )
+        # --- handle model output robustly ---
         if hasattr(outputs, "audio"):
             audio = outputs.audio
+        elif hasattr(outputs, "audios") and outputs.audios:
             audio = outputs.audios[0]
+        elif hasattr(outputs, "waveform"):
+            audio = outputs.waveform
+        elif hasattr(outputs, "waveforms") and outputs.waveforms:
+            audio = outputs.waveforms[0]
+        elif hasattr(outputs, "speech_outputs") and outputs.speech_outputs:
+            audio = outputs.speech_outputs[0]
         else:
+            raise gr.Error(f"Model did not return audio in expected format. Got attributes: {dir(outputs)}")
+        # convert to numpy
         if torch.is_tensor(audio):
             audio = audio.float().cpu().numpy()
         if audio.ndim > 1:
             audio = audio.squeeze()
         sample_rate = 24000
+        # ensure float32 for saving and returning
+        audio = audio.astype("float32")
+        # save automatically to disk
         os.makedirs("outputs", exist_ok=True)
+        from datetime import datetime
+        import soundfile as sf
         timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
         file_path = os.path.join("outputs", f"podcast_{timestamp}.wav")
+        sf.write(file_path, audio, sample_rate)   # soundfile handles float32
         print(f"💾 Saved podcast to {file_path}")
+        total_dur = len(audio) / sample_rate
         log = f"✅ Generation complete in {time.time()-start:.1f}s, {total_dur:.1f}s audio\nSaved to {file_path}"
         self.is_generating = False
+        return (sample_rate, audio), log
     def load_example_scripts(self):
         examples_dir = os.path.join(os.path.dirname(__file__), "text_examples")
 def create_demo_interface(demo_instance: VibeVoiceDemo):
+    """Create the Gradio interface (final audio only, no streaming)."""
+    # Custom CSS for high-end aesthetics
+    custom_css = """ ... """  # (keep your CSS unchanged)
+    with gr.Blocks(
+        title="VibeVoice - AI Podcast Generator",
+        css=custom_css,
+        theme=gr.themes.Soft(
+            primary_hue="blue",
+            secondary_hue="purple",
+            neutral_hue="slate",
         )
+    ) as interface:
+        # Header
+        gr.HTML("""
+        <div class="main-header">
+            <h1>🎙️ Vibe Podcasting</h1>
+            <p>Generating Long-form Multi-speaker AI Podcast with VibeVoice</p>
+        </div>
+        """)
+        with gr.Row():
+            # Left column - Settings
+            with gr.Column(scale=1, elem_classes="settings-card"):
+                gr.Markdown("### 🎛️ **Podcast Settings**")
+                num_speakers = gr.Slider(
+                    minimum=1, maximum=4, value=2, step=1,
+                    label="Number of Speakers",
+                    elem_classes="slider-container"
+                )
+                gr.Markdown("### 🎭 **Speaker Selection**")
+                available_speaker_names = list(demo_instance.available_voices.keys())
+                default_speakers = ['en-Alice_woman', 'en-Carter_man', 'en-Frank_man', 'en-Maya_woman']
+                speaker_selections = []
+                for i in range(4):
+                    default_value = default_speakers[i] if i < len(default_speakers) else None
+                    speaker = gr.Dropdown(
+                        choices=available_speaker_names,
+                        value=default_value,
+                        label=f"Speaker {i+1}",
+                        visible=(i < 2),
+                        elem_classes="speaker-item"
+                    )
+                    speaker_selections.append(speaker)
+                gr.Markdown("### ⚙️ **Advanced Settings**")
+                with gr.Accordion("Generation Parameters", open=False):
+                    cfg_scale = gr.Slider(
+                        minimum=1.0, maximum=2.0, value=1.3, step=0.05,
+                        label="CFG Scale (Guidance Strength)",
+                        elem_classes="slider-container"
+                    )
+            # Right column - Generation
+            with gr.Column(scale=2, elem_classes="generation-card"):
+                gr.Markdown("### 📝 **Script Input**")
+                script_input = gr.Textbox(
+                    label="Conversation Script",
+                    placeholder="Enter your podcast script here...",
+                    lines=12,
+                    max_lines=20,
+                    elem_classes="script-input"
+                )
+                with gr.Row():
+                    random_example_btn = gr.Button(
+                        "🎲 Random Example", size="lg",
+                        variant="secondary", elem_classes="random-btn", scale=1
+                    )
+                    generate_btn = gr.Button(
+                        "🚀 Generate Podcast", size="lg",
+                        variant="primary", elem_classes="generate-btn", scale=2
+                    )
+                # Output section
+                gr.Markdown("### 🎵 **Generated Podcast**")
+                complete_audio_output = gr.Audio(
+                    label="Complete Podcast (Download)",
+                    type="numpy",
+                    elem_classes="audio-output complete-audio-section",
+                    autoplay=False,
+                    show_download_button=True,
+                    visible=True
+                )
+                log_output = gr.Textbox(
+                    label="Generation Log",
+                    lines=8, max_lines=15,
+                    interactive=False,
+                    elem_classes="log-output"
+                )
+        # === logic ===
+        def update_speaker_visibility(num_speakers):
+            return [gr.update(visible=(i < num_speakers)) for i in range(4)]
+        num_speakers.change(
+            fn=update_speaker_visibility,
+            inputs=[num_speakers],
+            outputs=speaker_selections
         )
         def generate_podcast_wrapper(num_speakers, script, *speakers_and_params):
             try:
         generate_btn.click(
             fn=generate_podcast_wrapper,
             inputs=[num_speakers, script_input] + speaker_selections + [cfg_scale],
+            outputs=[complete_audio_output, log_output],
+            queue=True
         )
+        def load_random_example():
+            import random
+            examples = getattr(demo_instance, "example_scripts", [])
+            if not examples:
+                examples = [
+                    [2, "Speaker 0: Welcome to our AI podcast demo!\nSpeaker 1: Thanks, excited to be here!"]
+                ]
+            num_speakers_value, script_value = random.choice(examples)
+            return num_speakers_value, script_value
+        random_example_btn.click(
+            fn=load_random_example,
+            inputs=[],
+            outputs=[num_speakers, script_input],
+            queue=False
+        )
+        gr.Markdown("### 📚 **Example Scripts**")
+        examples = getattr(demo_instance, "example_scripts", []) or [
+            [1, "Speaker 1: Welcome to our AI podcast demo. This is a sample script."]
+        ]
+        gr.Examples(
+            examples=examples,
+            inputs=[num_speakers, script_input],
+            label="Try these example scripts:"
+        )
+    return interface
 def run_demo(