synthesis

Runtime error

adowu commited on Oct 28, 2024

Commit

006f2a8

verified ·

1 Parent(s): 29f6b1d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -16,19 +16,16 @@ tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)
 @spaces.GPU(enable_queue=True)
 def clone(text, audio):
     # Generowanie mowy
-    wav = tts.tts(text=text, speaker_wav=audio, language="pl")
     # Konwersja do numpy array i zapisanie jako plik WAV
     wav_np = np.array(wav)
     wavfile.write("./output.wav", 24000, (wav_np * 32767).astype(np.int16))
-    # Uzyskanie informacji o fonemach
-    phonemes_info = tts.synthesizer.get_phonemes(text, language="pl")
     # Przygotowanie informacji o fonemach
     phonemes_data = []
     cumulative_duration = 0
-    for phoneme, duration in phonemes_info:
         start_time = cumulative_duration
         end_time = start_time + duration
         phonemes_data.append({
@@ -60,4 +57,4 @@ iface = gr.Interface(
     theme=gr.themes.Base(primary_hue="teal", secondary_hue="teal", neutral_hue="slate")
 )
-iface.launch(share=True)

 @spaces.GPU(enable_queue=True)
 def clone(text, audio):
     # Generowanie mowy
+    wav, alignment, text_info, _ = tts.tts(text=text, speaker_wav=audio, language="pl", return_dict=True)
     # Konwersja do numpy array i zapisanie jako plik WAV
     wav_np = np.array(wav)
     wavfile.write("./output.wav", 24000, (wav_np * 32767).astype(np.int16))
     # Przygotowanie informacji o fonemach
     phonemes_data = []
     cumulative_duration = 0
+    for phoneme, duration in zip(text_info['phonemes'], alignment['durations']):
         start_time = cumulative_duration
         end_time = start_time + duration
         phonemes_data.append({
     theme=gr.themes.Base(primary_hue="teal", secondary_hue="teal", neutral_hue="slate")
 )
+iface.launch()