Spaces:

Gregniuki
/

f5-tts_Polish_English_German

Running on Zero

Gregniuki commited on Nov 28, 2024

Commit

8600d7b

verified ·

1 Parent(s): 266d24a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -208,27 +208,35 @@ def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence,
         print(f"Duration: {duration} seconds")
         # inference
         with torch.inference_mode():
-            generated, _ = ema_model.sample(
-                cond=audio,
-                text=final_text_list,
-                duration=duration,
-                steps=nfe_step,
-                cfg_strength=cfg_strength,
-                sway_sampling_coef=sway_sampling_coef,
-            )
-        generated = generated[:, ref_audio_len:, :]
-        generated_mel_spec = rearrange(generated, "1 n d -> 1 d n")
-        generated_mel_spec = generated_mel_spec.to(dtype=torch.float16)  # Convert to bfloat16
-        generated_wave = vocos.decode(generated_mel_spec.cpu())
-        if rms < target_rms:
-            generated_wave = generated_wave * rms / target_rms
-        # wav -> numpy
-        generated_wave = generated_wave.squeeze().cpu().numpy()
-        generated_waves.append(generated_wave)
- #       spectrograms.append(generated_mel_spec[0].cpu().numpy())
 # Ensure generated_mel_spec is in a compatible dtype (e.g., float32) before passing it to numpy
 #        generated_mel_spec = generated_mel_spec.to(dtype=torch.float32)  # Convert to float32 if it's in bfloat16

         print(f"Duration: {duration} seconds")
         # inference
         with torch.inference_mode():
+    # Ensure all inputs are on the same device as ema_model
+        audio = audio.to(ema_model.device)  # Match ema_model's device
+        final_text_list = [t.to(ema_model.device) if isinstance(t, torch.Tensor) else t for t in final_text_list]
+    generated, _ = ema_model.sample(
+        cond=audio,
+        text=final_text_list,
+        duration=duration,
+        steps=nfe_step,
+        cfg_strength=cfg_strength,
+        sway_sampling_coef=sway_sampling_coef,
+        )
+# Process generated tensor
+    generated = generated[:, ref_audio_len:, :]
+    generated_mel_spec = rearrange(generated, "1 n d -> 1 d n")
+# Convert to appropriate dtype and device
+    generated_mel_spec = generated_mel_spec.to(dtype=torch.float16, device=vocos.device)  # Ensure device matches vocos
+    generated_wave = vocos.decode(generated_mel_spec)
+# Adjust wave RMS if needed
+    if rms < target_rms:
+    generated_wave = generated_wave * rms / target_rms
+# Convert to numpy
+       generated_wave = generated_wave.squeeze().cpu().numpy()
+# Append to list
+    generated_waves.append(generated_wave)spectrograms.append(generated_mel_spec[0].cpu().numpy())
 # Ensure generated_mel_spec is in a compatible dtype (e.g., float32) before passing it to numpy
 #        generated_mel_spec = generated_mel_spec.to(dtype=torch.float32)  # Convert to float32 if it's in bfloat16