Spaces:

Gregniuki
/

f5-tts_Polish_English_German

Running on Zero

Gregniuki commited on Nov 29, 2024

Commit

745410d

verified ·

1 Parent(s): e6a69c1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -372,7 +372,7 @@ def infer(ref_audio_orig, ref_text, gen_text, exp_name, remove_silence, cross_fa
     gr.Info("Converting audio...")
     with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
         aseg = AudioSegment.from_file(ref_audio_orig)
         non_silent_segs = silence.split_on_silence(
             aseg, min_silence_len=1000, silence_thresh=-42, keep_silence=1000
         )
@@ -381,7 +381,7 @@ def infer(ref_audio_orig, ref_text, gen_text, exp_name, remove_silence, cross_fa
             non_silent_wave += non_silent_seg
         aseg = non_silent_wave
-        aseg = remove_silence_edges(aseg) + AudioSegment.silent(duration=100)
         audio_duration = len(aseg)
         if audio_duration > 8000:
@@ -417,7 +417,7 @@ def infer(ref_audio_orig, ref_text, gen_text, exp_name, remove_silence, cross_fa
     # Use the new chunk_text function to split gen_text
     max_chars = int(0.5 * (len(ref_text.encode('utf-8')) / (audio.shape[-1] / sr) * (15 - audio.shape[-1] / sr )))
     print(f"text: {gen_text} ")
-    gen_text_batches = chunk_text(gen_text, max_chars=max_chars)
     print('ref_text', ref_text)
     for i, batch_text in enumerate(gen_text_batches):
         print(f'gen_text {i}', batch_text)

     gr.Info("Converting audio...")
     with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
         aseg = AudioSegment.from_file(ref_audio_orig)
+        aseg = remove_silence_edges(aseg) + AudioSegment.silent(duration=50)
         non_silent_segs = silence.split_on_silence(
             aseg, min_silence_len=1000, silence_thresh=-42, keep_silence=1000
         )
             non_silent_wave += non_silent_seg
         aseg = non_silent_wave
         audio_duration = len(aseg)
         if audio_duration > 8000:
     # Use the new chunk_text function to split gen_text
     max_chars = int(0.5 * (len(ref_text.encode('utf-8')) / (audio.shape[-1] / sr) * (15 - audio.shape[-1] / sr )))
     print(f"text: {gen_text} ")
+    gen_text_batches = chunk_text(gen_text, max_chars=100)
     print('ref_text', ref_text)
     for i, batch_text in enumerate(gen_text_batches):
         print(f'gen_text {i}', batch_text)