Spaces:

Gregniuki
/

f5-tts_Polish_English_German

Running on Zero

App Files Files Community

Gregniuki commited on 10 days ago

Commit

f819e92

verified ·

1 Parent(s): 3d7bc1a

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -6

app.py CHANGED Viewed

@@ -223,7 +223,7 @@ def text_to_ipa(text, language=language):
 @gpu_decorator
-def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence, cross_fade_duration=0.15, progress=gr.Progress(), language=language):
     if exp_name == "Multi":
         ema_model = F5TTS_ema_model
    # elif exp_name == "Polish":
@@ -263,6 +263,7 @@ def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence,
     punctuation_weights = {",": 0, ".": 0, " ": 0}  # Add more punctuation as needed
     progress = tqdm(gen_text_batches)
     ipa_text_ref = text_to_ipa(ref_text, language=language)
     for i, gen_text in enumerate(progress):
@@ -411,7 +412,7 @@ def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence,
     return (target_sample_rate, final_wave), spectrogram_path
 @gpu_decorator
-def infer(ref_audio_orig, ref_text, gen_text, exp_name, remove_silence, cross_fade_duration=0.15, language=language # Set the desired language code dynamically
          ):
     print(gen_text)
@@ -469,7 +470,7 @@ def infer(ref_audio_orig, ref_text, gen_text, exp_name, remove_silence, cross_fa
         print(f'gen_text {i}', batch_text)
     gr.Info(f"Generating audio using {exp_name} in {len(gen_text_batches)} batches")
-    return infer_batch((audio, sr), ref_text, gen_text_batches, exp_name, remove_silence, cross_fade_duration, language)
 @gpu_decorator
@@ -495,7 +496,7 @@ def generate_podcast(script, speaker1_name, ref_audio1, ref_text1, speaker2_name
             continue  # Skip if the speaker is neither speaker1 nor speaker2
         # Generate audio for this block
-        audio, _ = infer(ref_audio, ref_text, text, exp_name, remove_silence, language)
         # Convert the generated audio to a numpy array
         sr, audio_data = audio
@@ -618,7 +619,7 @@ with gr.Blocks() as app_tts:
             model_choice,
             remove_silence,
             cross_fade_duration_slider,
-            language_choice,
         ],
         outputs=[audio_output, spectrogram_output],
     )
@@ -824,7 +825,7 @@ with gr.Blocks() as app_emotional:
             ref_text = speech_types[current_emotion].get('ref_text', '')
             # Generate speech for this segment
-            audio, _ = infer(ref_audio, ref_text, text, model_choice, remove_silence, language)
             sr, audio_data = audio
             # generated_audio_segments.append(audio_data)

 @gpu_decorator
+def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence, cross_fade_duration=0.15, progress=gr.Progress()):
     if exp_name == "Multi":
         ema_model = F5TTS_ema_model
    # elif exp_name == "Polish":
     punctuation_weights = {",": 0, ".": 0, " ": 0}  # Add more punctuation as needed
     progress = tqdm(gen_text_batches)
     ipa_text_ref = text_to_ipa(ref_text, language=language)
+    print(language)
     for i, gen_text in enumerate(progress):
     return (target_sample_rate, final_wave), spectrogram_path
 @gpu_decorator
+def infer(ref_audio_orig, ref_text, gen_text, exp_name, remove_silence, cross_fade_duration=0.15 # Set the desired language code dynamically
          ):
     print(gen_text)
         print(f'gen_text {i}', batch_text)
     gr.Info(f"Generating audio using {exp_name} in {len(gen_text_batches)} batches")
+    return infer_batch((audio, sr), ref_text, gen_text_batches, exp_name, remove_silence, cross_fade_duration)
 @gpu_decorator
             continue  # Skip if the speaker is neither speaker1 nor speaker2
         # Generate audio for this block
+        audio, _ = infer(ref_audio, ref_text, text, exp_name, remove_silence)
         # Convert the generated audio to a numpy array
         sr, audio_data = audio
             model_choice,
             remove_silence,
             cross_fade_duration_slider,
+         #   language_choice,
         ],
         outputs=[audio_output, spectrogram_output],
     )
             ref_text = speech_types[current_emotion].get('ref_text', '')
             # Generate speech for this segment
+            audio, _ = infer(ref_audio, ref_text, text, model_choice, remove_silence)
             sr, audio_data = audio
             # generated_audio_segments.append(audio_data)