Spaces:

nsfwalex
/

whisper-transcribe-new

Running on Zero

liuyang commited on Sep 4

Commit

9f7c374

1 Parent(s): d947708

update log, no vad

Files changed (1) hide show

app.py CHANGED Viewed

@@ -369,7 +369,7 @@ class WhisperTranscriber:
         options = dict(
             language=language,
             beam_size=5,
-            vad_filter=True,  # VAD is enabled by default for batched transcription
             vad_parameters=VadOptions(
                 max_speech_duration_s=whisper.feature_extractor.chunk_length,
                 min_speech_duration_ms=100,
@@ -392,6 +392,7 @@ class WhisperTranscriber:
         segments = list(segments)
         detected_language = transcript_info.language
         # Process segments
         results = []
@@ -420,7 +421,7 @@ class WhisperTranscriber:
         transcription_time = time.time() - start_time
         print(f"Full audio transcribed in {transcription_time:.2f} seconds using batch size {batch_size}")
-        print(results)
         return results, detected_language
     # Removed audio cutting; transcription is done once on the full (preprocessed) audio
@@ -474,7 +475,7 @@ class WhisperTranscriber:
         # Convert to list format
         diarize_segments = []
         diarization_list = list(diarization.itertracks(yield_label=True))
-        print(diarization_list)
         for turn, _, speaker in diarization_list:
             diarize_segments.append({
                 "start": float(turn.start) + float(base_offset_s),

         options = dict(
             language=language,
             beam_size=5,
+            vad_filter=False,  # VAD is enabled by default for batched transcription
             vad_parameters=VadOptions(
                 max_speech_duration_s=whisper.feature_extractor.chunk_length,
                 min_speech_duration_ms=100,
         segments = list(segments)
         detected_language = transcript_info.language
+        print("Detected language: ", detected_language, "segments: ", len(segments))
         # Process segments
         results = []
         transcription_time = time.time() - start_time
         print(f"Full audio transcribed in {transcription_time:.2f} seconds using batch size {batch_size}")
+        #print(results)
         return results, detected_language
     # Removed audio cutting; transcription is done once on the full (preprocessed) audio
         # Convert to list format
         diarize_segments = []
         diarization_list = list(diarization.itertracks(yield_label=True))
+        #print(diarization_list)
         for turn, _, speaker in diarization_list:
             diarize_segments.append({
                 "start": float(turn.start) + float(base_offset_s),