whisper-small-indonesia-demo

Sleeping

EwoutLagendijk commited on Dec 18, 2024

Commit

b9710dc

verified ·

1 Parent(s): a8d0349

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -37,17 +37,36 @@ def format_timestamp(seconds: float, always_include_hours: bool = False, decimal
         return seconds
-def transcribe(file, task, return_timestamps):
-    outputs = pipe(file, batch_size=BATCH_SIZE, generate_kwargs={"task": task}, return_timestamps=return_timestamps)
-    text = outputs["text"]
-    if return_timestamps:
-        timestamps = outputs["chunks"]
-        timestamps = [
-            f"[{format_timestamp(chunk['timestamp'][0])} -> {format_timestamp(chunk['timestamp'][1])}] {chunk['text']}"
-            for chunk in timestamps
-        ]
-        text = "\n".join(str(feature) for feature in timestamps)
-    return text
 demo = gr.Blocks()

         return seconds
+def transcribe_speech(filepath):
+    # Load the audio
+    audio, sampling_rate = librosa.load(filepath, sr=16000)
+    # Define chunk size (e.g., 30 seconds)
+    chunk_duration = 30  # in seconds
+    chunk_samples = chunk_duration * sampling_rate
+    # Process audio in chunks
+    transcription = []
+    for i in range(0, len(audio), chunk_samples):
+        chunk = audio[i:i + chunk_samples]
+        # Convert the chunk into input features
+        inputs = processor(audio=chunk, sampling_rate=16000, return_tensors="pt").input_features
+        # Generate transcription for the chunk
+        generated_ids = model.generate(
+            inputs,
+            max_new_tokens=444,  # Max allowed by Whisper
+            forced_decoder_ids=processor.get_decoder_prompt_ids(language="id", task="transcribe")
+        )
+        # Decode and append the transcription
+        chunk_transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+        transcription.append(chunk_transcription)
+    # Combine all chunk transcriptions into a single string
+    return " ".join(transcription)
 demo = gr.Blocks()