Spaces:

nsfwalex
/

whisper-transcribe-new

Running on Zero

liuyang commited on Aug 28

Commit

5a14daf

1 Parent(s): 5b655f4

Update waveform handling in WhisperTranscriber to maintain channel dimension during embedding calculations. Adjust comments for clarity on input shape requirements.

Files changed (1) hide show

app.py CHANGED Viewed

@@ -385,8 +385,8 @@ class WhisperTranscriber:
             speaker_embeddings = {}
             try:
                 embedder = self._load_embedder()
-                # waveform is (1, T); embedder expects mono 1D
-                emb = embedder({"waveform": waveform.squeeze(0), "sample_rate": sample_rate})
                 speaker_embeddings["SPEAKER_00"] = emb.squeeze().tolist()
             except Exception:
                 pass
@@ -431,7 +431,8 @@ class WhisperTranscriber:
                 start_sample = int(float(turn.start) * sample_rate)
                 end_sample = int(float(turn.end) * sample_rate)
                 if end_sample > start_sample:
-                    seg_wav = waveform[0, start_sample:end_sample].contiguous()
                     emb = embedder({"waveform": seg_wav, "sample_rate": sample_rate})
                     spk_to_embs[speaker].append(emb.squeeze())
             # average

             speaker_embeddings = {}
             try:
                 embedder = self._load_embedder()
+                # Provide waveform as (channel, time)
+                emb = embedder({"waveform": waveform, "sample_rate": sample_rate})
                 speaker_embeddings["SPEAKER_00"] = emb.squeeze().tolist()
             except Exception:
                 pass
                 start_sample = int(float(turn.start) * sample_rate)
                 end_sample = int(float(turn.end) * sample_rate)
                 if end_sample > start_sample:
+                    # Keep channel dimension: (channel, time)
+                    seg_wav = waveform[:, start_sample:end_sample].contiguous()
                     emb = embedder({"waveform": seg_wav, "sample_rate": sample_rate})
                     spk_to_embs[speaker].append(emb.squeeze())
             # average