Dupaja
/

speecht5_tts

@@ -22,19 +22,19 @@ class EndpointHandler:
         self.model= SpeechT5ForTextToSpeech.from_pretrained(checkpoint)
         self.processor = SpeechT5Processor.from_pretrained(checkpoint)
         self.vocoder = SpeechT5HifiGan.from_pretrained(vocoder_id)
-        self.embeddings_dataset = load_dataset(dataset_id, split="validation")
     def __call__(self, data: Dict[str, Any]) -> Dict[str, Any]:
         given_text = data.get("inputs", "")
-        speaker_embeddings = torch.tensor(self.embeddings_dataset[7306]["xvector"]).unsqueeze(0)
         inputs = self.processor(text=given_text, return_tensors="pt")
-        speech = self.model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=self.vocoder)

         self.model= SpeechT5ForTextToSpeech.from_pretrained(checkpoint)
         self.processor = SpeechT5Processor.from_pretrained(checkpoint)
         self.vocoder = SpeechT5HifiGan.from_pretrained(vocoder_id)
+        embeddings_dataset = load_dataset(dataset_id, split="validation")
+        self.embeddings_dataset = embeddings_dataset
+        self.speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
     def __call__(self, data: Dict[str, Any]) -> Dict[str, Any]:
         given_text = data.get("inputs", "")
         inputs = self.processor(text=given_text, return_tensors="pt")
+        speech = self.model.generate_speech(inputs["input_ids"], self.speaker_embeddings, vocoder=self.vocoder)