Spaces:

Gregniuki
/

f5-tts_Polish_English_German

Running on Zero

App Files Files Community

Gregniuki commited on 10 days ago

Commit

bf3a197

verified ·

1 Parent(s): ecc5628

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -8

app.py CHANGED Viewed

@@ -28,6 +28,8 @@ from infer.utils_infer import (
     save_spectrogram,
 )
 from tokenizers import Tokenizer
 from transformers import pipeline
 import click
 import soundfile as sf
@@ -131,7 +133,7 @@ F5TTS_ema_model = load_custom(
     "hf://Gregniuki/F5-tts_English_German_Polish/English/model_222600.pt", "", F5TTS_model_cfg
 )
 E2TTS_ema_model = load_custom(
-    "hf://Gregniuki/F5-tts_English_German_Polish/Polish2/model_1200000.pt", "", F5TTS_model_cfg
 )
 E2TTS_ema_model2 = load_custom(
     "hf://Gregniuki/F5-tts_English_German_Polish/Polish/model_500000.pt", "", F5TTS_model_cfg
@@ -202,11 +204,24 @@ def chunk_text(text, max_chars):
     return chunks
 @gpu_decorator
-def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence, cross_fade_duration=0.15, progress=gr.Progress()):
     if exp_name == "English":
         ema_model = F5TTS_ema_model
     elif exp_name == "Polish":
@@ -247,7 +262,12 @@ def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence,
     for i, gen_text in enumerate(progress.tqdm(gen_text_batches)):
         # Prepare the text
-        text_list = [ref_text + gen_text]
         encoding = tokenizer.encode(text_list)
         tokens = encoding.tokens
         text_list = ' '.join(map(str, tokens))
@@ -384,7 +404,7 @@ def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence,
     return (target_sample_rate, final_wave), spectrogram_path
 @gpu_decorator
-def infer(ref_audio_orig, ref_text, gen_text, exp_name, remove_silence, cross_fade_duration=0.15 # Set the desired language code dynamically
          ):
     print(gen_text)
@@ -442,7 +462,7 @@ def infer(ref_audio_orig, ref_text, gen_text, exp_name, remove_silence, cross_fa
         print(f'gen_text {i}', batch_text)
     gr.Info(f"Generating audio using {exp_name} in {len(gen_text_batches)} batches")
-    return infer_batch((audio, sr), ref_text, gen_text_batches, exp_name, remove_silence, cross_fade_duration)
 @gpu_decorator
@@ -468,7 +488,7 @@ def generate_podcast(script, speaker1_name, ref_audio1, ref_text1, speaker2_name
             continue  # Skip if the speaker is neither speaker1 nor speaker2
         # Generate audio for this block
-        audio, _ = infer(ref_audio, ref_text, text, exp_name, remove_silence)
         # Convert the generated audio to a numpy array
         sr, audio_data = audio
@@ -580,6 +600,7 @@ with gr.Blocks() as app_tts:
             model_choice,
             remove_silence,
             cross_fade_duration_slider,
         ],
         outputs=[audio_output, spectrogram_output],
     )
@@ -786,7 +807,7 @@ with gr.Blocks() as app_emotional:
             ref_text = speech_types[current_emotion].get('ref_text', '')
             # Generate speech for this segment
-            audio, _ = infer(ref_audio, ref_text, text, model_choice, remove_silence)
             sr, audio_data = audio
             # generated_audio_segments.append(audio_data)

     save_spectrogram,
 )
 from tokenizers import Tokenizer
+from phonemizer import phonemize
 from transformers import pipeline
 import click
 import soundfile as sf
     "hf://Gregniuki/F5-tts_English_German_Polish/English/model_222600.pt", "", F5TTS_model_cfg
 )
 E2TTS_ema_model = load_custom(
+    "hf://Gregniuki/F5-tts_English_German_Polish/multi/model_300000.pt", "", F5TTS_model_cfg
 )
 E2TTS_ema_model2 = load_custom(
     "hf://Gregniuki/F5-tts_English_German_Polish/Polish/model_500000.pt", "", F5TTS_model_cfg
     return chunks
+def text_to_ipa(text, language='en-gb'):
+    try:
+        ipa_text = phonemize(
+            text,
+            language=language,
+            backend='espeak',
+            strip=False,
+            preserve_punctuation=True,
+            with_stress=True
+        )
+        return ipa_text #preserve_case(text, ipa_text)
+    except Exception as e:
+        print(f"Error processing text: {text}. Error: {e}")
+        return None
 @gpu_decorator
+def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence, cross_fade_duration=0.15, progress=gr.Progress(), language):
     if exp_name == "English":
         ema_model = F5TTS_ema_model
     elif exp_name == "Polish":
     for i, gen_text in enumerate(progress.tqdm(gen_text_batches)):
         # Prepare the text
+        ipa_text_ref = text_to_ipa(ref_text, language=language)
+        ipa_text_gen = text_to_ipa(gen_text, language=language)
+        text_list = [ref_text_ref + gen_text_gen]
         encoding = tokenizer.encode(text_list)
         tokens = encoding.tokens
         text_list = ' '.join(map(str, tokens))
     return (target_sample_rate, final_wave), spectrogram_path
 @gpu_decorator
+def infer(ref_audio_orig, ref_text, gen_text, exp_name, remove_silence, cross_fade_duration=0.15, language # Set the desired language code dynamically
          ):
     print(gen_text)
         print(f'gen_text {i}', batch_text)
     gr.Info(f"Generating audio using {exp_name} in {len(gen_text_batches)} batches")
+    return infer_batch((audio, sr), ref_text, gen_text_batches, exp_name, remove_silence, cross_fade_duration, language)
 @gpu_decorator
             continue  # Skip if the speaker is neither speaker1 nor speaker2
         # Generate audio for this block
+        audio, _ = infer(ref_audio, ref_text, text, exp_name, remove_silence, language)
         # Convert the generated audio to a numpy array
         sr, audio_data = audio
             model_choice,
             remove_silence,
             cross_fade_duration_slider,
+            language='en-gb',
         ],
         outputs=[audio_output, spectrogram_output],
     )
             ref_text = speech_types[current_emotion].get('ref_text', '')
             # Generate speech for this segment
+            audio, _ = infer(ref_audio, ref_text, text, model_choice, remove_silence, language)
             sr, audio_data = audio
             # generated_audio_segments.append(audio_data)