synthesis

Sleeping

adowu commited on Oct 28, 2024

Commit

b416379

verified ·

1 Parent(s): 006f2a8

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -16,25 +16,28 @@ tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)
 @spaces.GPU(enable_queue=True)
 def clone(text, audio):
     # Generowanie mowy
-    wav, alignment, text_info, _ = tts.tts(text=text, speaker_wav=audio, language="pl", return_dict=True)
     # Konwersja do numpy array i zapisanie jako plik WAV
-    wav_np = np.array(wav)
     wavfile.write("./output.wav", 24000, (wav_np * 32767).astype(np.int16))
     # Przygotowanie informacji o fonemach
     phonemes_data = []
     cumulative_duration = 0
-    for phoneme, duration in zip(text_info['phonemes'], alignment['durations']):
-        start_time = cumulative_duration
-        end_time = start_time + duration
-        phonemes_data.append({
-            "phoneme": phoneme,
-            "start": float(start_time),
-            "end": float(end_time),
-            "duration": float(duration)
-        })
-        cumulative_duration = end_time
     # Zapisywanie informacji o fonemach do pliku JSON
     with open("./phonemes_info.json", "w", encoding="utf-8") as f:

 @spaces.GPU(enable_queue=True)
 def clone(text, audio):
     # Generowanie mowy
+    result = tts.tts(text=text, speaker_wav=audio, language="pl", return_dict=True)
     # Konwersja do numpy array i zapisanie jako plik WAV
+    wav_np = np.array(result['wav'])
     wavfile.write("./output.wav", 24000, (wav_np * 32767).astype(np.int16))
     # Przygotowanie informacji o fonemach
     phonemes_data = []
     cumulative_duration = 0
+    if 'phonemes' in result and 'durations' in result:
+        for phoneme, duration in zip(result['phonemes'], result['durations']):
+            start_time = cumulative_duration
+            end_time = start_time + duration
+            phonemes_data.append({
+                "phoneme": phoneme,
+                "start": float(start_time),
+                "end": float(end_time),
+                "duration": float(duration)
+            })
+            cumulative_duration = end_time
+    else:
+        phonemes_data.append({"error": "Brak informacji o fonemach"})
     # Zapisywanie informacji o fonemach do pliku JSON
     with open("./phonemes_info.json", "w", encoding="utf-8") as f: