TIGER-audio-extraction

Sleeping

fffiloni commited on May 23

Commit

6d25e94

verified ·

1 Parent(s): b090534

Update gradio_app.py

Files changed (1) hide show

gradio_app.py CHANGED Viewed

@@ -40,11 +40,11 @@ def separate_speakers_core(audio_path):
         waveform = T.Resample(orig_freq=original_sr, new_freq=TARGET_SR)(waveform)
     if waveform.dim() == 1:
-        waveform = waveform.unsqueeze(0)
-    audio_input = waveform.unsqueeze(0).to(device)
     with torch.no_grad():
-        ests_speech = sep_model(audio_input).squeeze(0)
     session_id = uuid.uuid4().hex[:8]
     output_dir = os.path.join("output_sep", session_id)
@@ -53,15 +53,21 @@ def separate_speakers_core(audio_path):
     output_files = []
     for i in range(ests_speech.shape[0]):
         path = os.path.join(output_dir, f"speaker_{i+1}.wav")
-        waveform = ests_speech[i].cpu().unsqueeze(0)  # (1, samples)
-        torchaudio.save(path, waveform, TARGET_SR)
-        output_files.append(path)
     return output_files
 @spaces.GPU()
 def separate_dnr(audio_file):
     audio, sr = torchaudio.load(audio_file)

         waveform = T.Resample(orig_freq=original_sr, new_freq=TARGET_SR)(waveform)
     if waveform.dim() == 1:
+        waveform = waveform.unsqueeze(0)  # Ensure shape is (1, samples)
+    audio_input = waveform.unsqueeze(0).to(device)  # Shape: (1, 1, samples)
     with torch.no_grad():
+        ests_speech = sep_model(audio_input).squeeze(0)  # Shape: (num_speakers, samples)
     session_id = uuid.uuid4().hex[:8]
     output_dir = os.path.join("output_sep", session_id)
     output_files = []
     for i in range(ests_speech.shape[0]):
         path = os.path.join(output_dir, f"speaker_{i+1}.wav")
+        speaker_waveform = ests_speech[i].cpu()
+        if speaker_waveform.dim() == 1:
+            speaker_waveform = speaker_waveform.unsqueeze(0)  # (1, samples)
+        # Ensure correct dtype and save in a widely compatible format
+        speaker_waveform = speaker_waveform.to(torch.float32)
+        torchaudio.save(path, speaker_waveform, TARGET_SR, format="wav", encoding="PCM_S", bits_per_sample=16)
+        output_files.append(path)
     return output_files
 @spaces.GPU()
 def separate_dnr(audio_file):
     audio, sr = torchaudio.load(audio_file)