Spaces:

Gregniuki
/

f5-tts_Polish_English_German

Running on Zero

App Files Files Community

Gregniuki commited on Nov 27, 2024

Commit

c7c1bcf

verified ·

1 Parent(s): 48dfb69

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -31

app.py CHANGED Viewed

@@ -191,39 +191,30 @@ def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence,
     spectrograms = []
-    for i, gen_text in enumerate(progress.tqdm(gen_text_batches)):
-        if len(ref_text[-1].encode('utf-8')) == 1:
-            ref_text = gen_text
-        # Prepare the text
-         #if len(ref_text[-1].encode('utf-8')) == 1:
-        #      ref_text = ref_text + " "
-         #       gen_text = gen_text
-        text_list = [ref_text + gen_text]
-        final_text_list = convert_char_to_pinyin(text_list)
-        # Calculate duration
-    #    ref_audio_len = audio.shape[-1] // hop_length
-     #   zh_pause_punc = r"。，、；：？！,"
-      #  gen_text_len = len(gen_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, gen_text))
-      #  duration = min(10, max(1, int(round(gen_text_len / (speed * 10)))))*100
-                # Calculate duration
-        print(f"ref len: {len(ref_text.encode('utf-8'))} chars")
-        print(f"gen len: {len(gen_text.encode('utf-8'))} chars")
-        ref_audio_len = audio.shape[-1] // hop_length
-        zh_pause_punc = r"。，、；：？！"
-        ref_text_len = len(ref_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, ref_text))
-        gen_text_len = len(gen_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, gen_text))
-        if len(ref_text[-1].encode('utf-8')) == 1:
-            duration = min(2000, max(270, (ref_audio_len + int(ref_audio_len / ref_text_len * gen_text_len / speed))))
-            print(f"Duration: {duration} seconds")
-        else:
-            ref_text_len = len(ref_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, ref_text))
-            duration = min(2000, max(270, (ref_audio_len + int(ref_audio_len / ref_text_len * gen_text_len / speed))))
-            print(f"Duration: {duration} seconds")
         # inference
         with torch.inference_mode():
             generated, _ = ema_model.sample(

     spectrograms = []
+for i, gen_text in enumerate(progress.tqdm(gen_text_batches)):
+    # If the last character of ref_text is a single byte (likely punctuation or space), use gen_text as reference
+    if len(ref_text[-1].encode('utf-8')) == 1:
+        ref_text = ref_text + ' '
+    # Prepare the text for pinyin conversion
+    text_list = [ref_text + gen_text]
+    final_text_list = convert_char_to_pinyin(text_list)
+    # Calculate text lengths including punctuation-based adjustments
+    print(f"ref len: {len(ref_text.encode('utf-8'))} chars")
+    print(f"gen len: {len(gen_text.encode('utf-8'))} chars")
+    ref_audio_len = audio.shape[-1] // hop_length
+    zh_pause_punc = r"。，、；：？！"
+    ref_text_len = len(ref_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, ref_text))
+    gen_text_len = len(gen_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, gen_text))
+    # Calculate duration based on the lengths of ref_text and gen_text
+    duration = min(2000, max(270, (ref_audio_len + int(ref_audio_len / ref_text_len * gen_text_len / speed))))
+    # Print the calculated duration
+    print(f"Duration: {duration} seconds")
         # inference
         with torch.inference_mode():
             generated, _ = ema_model.sample(