Spaces:

GiftMark
/

AkanWhisperV.1

Sleeping

GiftMark commited on Jul 11

Commit

2f6398c

verified ·

1 Parent(s): 8ce026d

Upload 2 files

Files changed (2) hide show

app.py CHANGED Viewed

@@ -2,7 +2,9 @@ import gradio as gr
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 import torch
 import numpy as np
 # Load your model (use_auth_token for private models)
 import os
 hf_token = os.getenv("HF_TOKEN")
@@ -14,16 +16,19 @@ def transcribe(audio):
     try:
         if audio is None:
             return "No audio provided."
-        # Gradio gives audio as (sampling_rate, data)
         sampling_rate, data = audio
-        # Whisper expects float32 numpy arrays
-        if not isinstance(data, np.ndarray):
-            data = np.array(data)
-        data = data.astype(np.float32)
-        # Some Gradio versions return mono, others stereo; Whisper needs 1D
         if len(data.shape) > 1:
             data = data[:, 0]
         inputs = processor(
             data, sampling_rate=sampling_rate, return_tensors="pt"
@@ -34,7 +39,6 @@ def transcribe(audio):
         transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
         return transcription
     except Exception as e:
-        # Print error to logs and return to user
         print("Error during transcription:", e)
         return f"Error: {e}"

 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 import torch
 import numpy as np
+from scipy.signal import resample
+# app.py
 # Load your model (use_auth_token for private models)
 import os
 hf_token = os.getenv("HF_TOKEN")
     try:
         if audio is None:
             return "No audio provided."
         sampling_rate, data = audio
+        data = np.array(data).astype(np.float32)
+        # Ensure mono
         if len(data.shape) > 1:
             data = data[:, 0]
+        # Resample if needed
+        target_sr = 16000
+        if sampling_rate != target_sr:
+            # Calculate number of samples after resampling
+            duration = data.shape[0] / sampling_rate
+            new_length = int(duration * target_sr)
+            data = resample(data, new_length)
+            sampling_rate = target_sr
         inputs = processor(
             data, sampling_rate=sampling_rate, return_tensors="pt"
         transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
         return transcription
     except Exception as e:
         print("Error during transcription:", e)
         return f"Error: {e}"

requirements.txt CHANGED Viewed

@@ -1,2 +1,4 @@
 transformers
 torch

 transformers
 torch
+scipy