moretts

Sleeping

App Files Files Community

Gregniuki commited on Nov 27, 2024

Commit

646de05

verified ·

1 Parent(s): cc95ac6

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -15

app.py CHANGED Viewed

@@ -193,27 +193,19 @@ def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence,
     for i, gen_text in enumerate(progress.tqdm(gen_text_batches)):
-    # If the last character of ref_text is a single byte (likely punctuation or space), use gen_text as reference
-        if len(ref_text.encode('utf-8')) <= 2:
-            ref_text = gen_text
-    # Prepare the text for pinyin conversion
         text_list = [ref_text + gen_text]
         final_text_list = convert_char_to_pinyin(text_list)
-    # Calculate text lengths including punctuation-based adjustments
-        print(f"ref len: {len(ref_text.encode('utf-8'))} chars")
-        print(f"gen len: {len(gen_text.encode('utf-8'))} chars")
         ref_audio_len = audio.shape[-1] // hop_length
         zh_pause_punc = r"。，、；：？！"
         ref_text_len = len(ref_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, ref_text))
         gen_text_len = len(gen_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, gen_text))
-    # Calculate duration based on the lengths of ref_text and gen_text
-        duration = min(2000, max(270, int( (ref_audio_len + (ref_audio_len / ref_text_len * gen_text_len / speed))))
     # Print the calculated duration
         print(f"Duration: {duration} seconds")
         # inference
@@ -332,13 +324,13 @@ def infer(ref_audio_orig, ref_text, gen_text, exp_name, remove_silence, cross_fa
     if not ref_text.strip():
         gr.Info("No reference text provided, transcribing reference audio...")
-        ref_text = outputs = pipe(
             ref_audio,
             chunk_length_s=30,
             batch_size=128,
             generate_kwargs={"task": "transcribe"},
             return_timestamps=False,
-        )['text'].strip()
         gr.Info("Finished transcription")
     else:
         gr.Info("Using custom reference text...")

     for i, gen_text in enumerate(progress.tqdm(gen_text_batches)):
+        # Prepare the text
+        if len(ref_text[-1].encode('utf-8')) == 1:
+            ref_text = ref_text + " "
         text_list = [ref_text + gen_text]
         final_text_list = convert_char_to_pinyin(text_list)
+        # Calculate duration
         ref_audio_len = audio.shape[-1] // hop_length
         zh_pause_punc = r"。，、；：？！"
         ref_text_len = len(ref_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, ref_text))
         gen_text_len = len(gen_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, gen_text))
+        duration = ref_audio_len + int(ref_audio_len / ref_text_len * gen_text_len / speed)
     # Print the calculated duration
         print(f"Duration: {duration} seconds")
         # inference
     if not ref_text.strip():
         gr.Info("No reference text provided, transcribing reference audio...")
+        ref_text = pipe(
             ref_audio,
             chunk_length_s=30,
             batch_size=128,
             generate_kwargs={"task": "transcribe"},
             return_timestamps=False,
+        )["text"].strip()
         gr.Info("Finished transcription")
     else:
         gr.Info("Using custom reference text...")