Dupaja
/

speecht5_tts

Inference Endpoints

Model card Files Files and versions Community

Dupaja commited on Jan 1, 2024

Commit

9f940c9

·

1 Parent(s): 8869945

Updating using SpeechT5 Article

https://huggingface.co/blog/speecht5

Files changed (1) hide show

handler.py +27 -8

handler.py CHANGED Viewed

@@ -1,28 +1,47 @@
-from huggingface_hub import InferenceClient
 from datasets import load_dataset
 import soundfile as sf
 from typing import Dict, List, Any
 class EndpointHandler:
     def __init__(self, path=""):
-        self.client = InferenceClient(repo_id="microsoft/speecht5_tts", task="text-to-speech")
         self.embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
     def __call__(self, data: Dict[str, Any]) -> Dict[str, Any]:
-        text = data.get("inputs", "")
-        speaker_embedding = self.embeddings_dataset['xvector'][7306].unsqueeze(0).tolist()
-        response = self.client(payload={"inputs": text, "forward_params": {"speaker_embeddings": speaker_embedding}}, options={"wait_for_model": True})
         # Write the response audio to a file
-        sf.write("speech.wav", response.audio, response.sampling_rate)
         # Return the expected response format
         return {
             "statusCode": 200,
             "body": {
-                "audio": response.audio,  # Consider encoding this to a suitable format
-                "sampling_rate": response.sampling_rate
             }
         }

+import librosa
+import numpy as np
+import torch
+from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 from datasets import load_dataset
 import soundfile as sf
 from typing import Dict, List, Any
 class EndpointHandler:
     def __init__(self, path=""):
+        checkpoint = "microsoft/speecht5_tts"
+        self.model= SpeechT5ForTextToSpeech.from_pretrained(checkpoint)
+        self.processor = SpeechT5Processor.from_pretrained(checkpoint)
+        self.vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
         self.embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
     def __call__(self, data: Dict[str, Any]) -> Dict[str, Any]:
+        given_text = data.get("inputs", "")
+        speaker_embeddings = torch.tensor(self.embeddings_dataset[7306]["xvector"]).unsqueeze(0)
+        inputs = self.processor(text=given_text, return_tensors="pt")
+        speech = self.model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=self.vocoder)
         # Write the response audio to a file
+        sf.write("current_sample.wav", speech.numpy(), samplerate=16000)
         # Return the expected response format
         return {
             "statusCode": 200,
             "body": {
+                "audio": speech.numpy(),  # Consider encoding this to a suitable format
+                "sampling_rate": 16000
             }
         }