Spaces:

amphion
/

Text-to-Speech

Running

zyingt commited on Mar 29, 2024

Commit

ade41ec

verified ·

1 Parent(s): 73880c7

support timbre confusion

Files changed (1) hide show

models/tts/vits/vits.py CHANGED Viewed

@@ -317,12 +317,15 @@ class SynthesizerTrn(nn.Module):
             "logs_q": logs_q,
         }
         return outputs
     def infer(
         self,
         x,
         x_lengths,
-        sid=None,
         noise_scale=1,
         length_scale=1,
         noise_scale_w=1.0,
@@ -330,13 +333,20 @@ class SynthesizerTrn(nn.Module):
     ):
         x, m_p, logs_p, x_mask = self.enc_p(x, x_lengths)
         if self.n_speakers > 0:
-            sid = sid.squeeze(-1)
-            g = self.emb_g(sid).unsqueeze(-1)  # [b, h, 1]
         else:
             g = None
-        print('g.shape: ', g.shape)
         if self.use_sdp:
             logw = self.dp(x, x_mask, g=g, reverse=True, noise_scale=noise_scale_w)
         else:

             "logs_q": logs_q,
         }
         return outputs
     def infer(
         self,
         x,
         x_lengths,
+        sid_1=None,
+        sid_2=None,
+        alpha=0.5,
         noise_scale=1,
         length_scale=1,
         noise_scale_w=1.0,
     ):
         x, m_p, logs_p, x_mask = self.enc_p(x, x_lengths)
         if self.n_speakers > 0:
+            if sid_2 is None:
+                sid = sid_1.squeeze(-1)
+                g = self.emb_g(sid).unsqueeze(-1)  # [b, h, 1]
+            else:
+                sid_1= sid_1.squeeze(-1)
+                g_1 = self.emb_g(sid_1).unsqueeze(-1)
+                sid_2= sid_2.squeeze(-1)
+                g_2 = self.emb_g(sid_2).unsqueeze(-1)
+                g = interpolate_embeddings(g_1,g_2,alpha)
         else:
             g = None
+        print('g.shape: ', g.shape)
         if self.use_sdp:
             logw = self.dp(x, x_mask, g=g, reverse=True, noise_scale=noise_scale_w)
         else: