Spaces:

Gregniuki
/

f5-tts_Polish_English_German

Running on Zero

Gregniuki commited on Nov 30, 2024

Commit

f914a1f

verified ·

1 Parent(s): dc292c6

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -347,7 +347,9 @@ def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence,
     # Remove silence
     if remove_silence:
         with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
-            sf.write(f.name, final_wave, target_sample_rate)
             aseg = AudioSegment.from_file(f.name)
             non_silent_segs = silence.split_on_silence(aseg, min_silence_len=1000, silence_thresh=-50, keep_silence=500)
             non_silent_wave = AudioSegment.silent(duration=0)
@@ -775,13 +777,13 @@ with gr.Blocks() as app_emotional:
             # generated_audio_segments.append(audio_data)
                     # Ensure audio_data is float32
-            audio_data = audio_data.astype(np.float32)
             generated_audio_segments.append(audio_data)
         # Concatenate all audio segments
         if generated_audio_segments:
-            final_audio_data = np.concatenate(generated_audio_segments).astype(np.float32)
             return (sr, final_audio_data)
         else:
             gr.Warning("No audio generated.")

     # Remove silence
     if remove_silence:
         with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
+        # Convert to float32 before writing
+            final_wave_float32 = final_wave.astype(np.float32)
+            sf.write(f.name, final_wave_float32, target_sample_rate)
             aseg = AudioSegment.from_file(f.name)
             non_silent_segs = silence.split_on_silence(aseg, min_silence_len=1000, silence_thresh=-50, keep_silence=500)
             non_silent_wave = AudioSegment.silent(duration=0)
             # generated_audio_segments.append(audio_data)
                     # Ensure audio_data is float32
+            #audio_data = audio_data.astype(np.float32)
             generated_audio_segments.append(audio_data)
         # Concatenate all audio segments
         if generated_audio_segments:
+            final_audio_data = np.concatenate(generated_audio_segments)#.astype(np.float32)
             return (sr, final_audio_data)
         else:
             gr.Warning("No audio generated.")