Spaces:

Naksh786
/

tts

Build error

Naksh786 commited on Nov 7, 2024

Commit

03088e5

verified ·

1 Parent(s): e6d1a2d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,19 +1,24 @@
 import gradio as gr
-from transformers import AutoModelForTextToSpeech, AutoTokenizer
 import torch
-# Load the model and tokenizer
-model = AutoModelForTextToSpeech.from_pretrained("parler-tts/parler_tts")
-tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler_tts")
-# Define the TTS function
 def text_to_speech(text):
-    inputs = tokenizer(text, return_tensors="pt")
-    speech = model.generate(**inputs)
-    # Convert to an audio format, e.g., 16kHz waveform
-    audio = speech[0].cpu().detach().numpy()
-    return 16000, audio  # Sample rate, waveform
 # Gradio interface
 interface = gr.Interface(
@@ -21,7 +26,7 @@ interface = gr.Interface(
     inputs="text",
     outputs="audio",
     title="Text to Speech",
-    description="Convert text to speech using the parler-tts/parler_tts model"
 )
 interface.launch()

 import gradio as gr
+from transformers import SpeechT5ForTextToSpeech, SpeechT5Processor
 import torch
+import torchaudio
+import tempfile
+# Load model and processor
+processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
+model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
+# Load a voice embedding (necessary for the SpeechT5 model)
+speaker_embedding, _ = torchaudio.load("https://huggingface.co/microsoft/speecht5_tts/blob/main/speaker_embeddings/english/vctk_speaker_0.pt")
 def text_to_speech(text):
+    inputs = processor(text, return_tensors="pt")
+    speech = model.generate_speech(inputs["input_ids"], speaker_embedding)
+    # Save the output to a temporary file
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
+        torchaudio.save(f.name, speech, 16000)
+        return f.name
 # Gradio interface
 interface = gr.Interface(
     inputs="text",
     outputs="audio",
     title="Text to Speech",
+    description="Convert text to speech using the microsoft/speecht5_tts model"
 )
 interface.launch()