Spaces:

cdactvm
/

Tamil_ASR_Demo

Starting

App Files Files Community

cdactvm commited on Dec 11, 2024

Commit

45aba10

verified ·

1 Parent(s): fe9f5d4

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -58

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ warnings.filterwarnings("ignore")
 import os
 import re
 import librosa
 import webrtcvad
 import nbimporter
@@ -28,71 +29,30 @@ from applyVad import apply_vad
 from wienerFilter import wiener_filter
 from highPassFilter import high_pass_filter
 from waveletDenoise import wavelet_denoise
-transcriber_taml_new = pipeline(task="automatic-speech-recognition", model="cdactvm/w2v-bert-tamil_new")
-# transcriber_hindi_old = pipeline(task="automatic-speech-recognition", model="cdactvm/w2v-bert-tamil_new")
-processor = AutoProcessor.from_pretrained("cdactvm/w2v-bert-tamil_new")
-vocab_dict = processor.tokenizer.get_vocab()
-sorted_vocab_dict = {k.lower(): v for k, v in sorted(vocab_dict.items(), key=lambda item: item[1])}
-# decoder = build_ctcdecoder(
-#     labels=list(sorted_vocab_dict.keys()),
-#     kenlm_model_path="lm.binary",
-#     )
-# processor_with_lm = Wav2Vec2ProcessorWithLM(
-#     feature_extractor=processor.feature_extractor,
-#     tokenizer=processor.tokenizer,
-#     decoder=decoder
-#     )
-processor.feature_extractor._processor_class = "Wav2Vec2ProcessorWithLM"
-# transcriber_hindi_lm = pipeline("automatic-speech-recognition", model="cdactvm/w2v-bert-tamil_new", tokenizer=processor_with_lm, feature_extractor=processor_with_lm.feature_extractor, decoder=processor_with_lm.decoder)
-# def transcribe_tamil_new(audio):
-#     # # Process the audio file
-#     transcript = transcriber_taml_new(audio)
-#     text_value = transcript['text']
-#     processd_doubles=process_doubles(text_value)
-#     replaced_words = replace_words(processd_doubles)
-#     converted_text=text_to_int(replaced_words)
-#     return converted_text
-###############################################
-# implementation of noise reduction techniques.
 # Function to apply a Wiener filter for noise reduction
 def apply_wiener_filter(audio):
     return wiener(audio)
-# Function to handle speech recognition
-def Noise_cancellation_function(audio_file):
-    # Load the audio file using librosa
-    audio, sr = librosa.load(audio_file, sr=16000)
-    # Step 1: Apply a high-pass filter
-    audio = high_pass_filter(audio, sr)
-    # Step 2: Apply Wiener filter for noise reduction
-    audio = apply_wiener_filter(audio)
-    # Step 3: Apply wavelet denoising
-    denoised_audio = wavelet_denoise(audio)
-    # Save the denoised audio to a temporary file
-    temp_wav = "temp_denoised.wav"
-    write(temp_wav, sr, denoised_audio)
-    # Perform speech recognition on the denoised audio
-    transcript = transcriber_taml_new(temp_wav)
-    text_value = transcript['text']
-    cleaned_text=text_value.replace("<s>","")
-    processd_doubles=process_doubles(cleaned_text)
-    replaced_words = replace_words(processd_doubles)
-    converted_text=text_to_int(replaced_words)
-    return converted_text
-#################################################
 # Function to handle speech recognition
 def recognize_speech(audio_file):
     audio, sr = librosa.load(audio_file, sr=16000)
@@ -113,7 +73,6 @@ def recognize_speech(audio_file):
     print(converted_text)
     return converted_text
 def sel_lng(lng, mic=None, file=None):
     if mic is not None:
         audio = mic

 import os
 import re
+import pywt
 import librosa
 import webrtcvad
 import nbimporter
 from wienerFilter import wiener_filter
 from highPassFilter import high_pass_filter
 from waveletDenoise import wavelet_denoise
+from scipy.signal import butter, lfilter, wiener
+asr_model = pipeline("automatic-speech-recognition", model="cdactvm/w2v-bert-tamil_new")
+# Function to apply a high-pass filter
+def high_pass_filter(audio, sr, cutoff=300):
+    nyquist = 0.5 * sr
+    normal_cutoff = cutoff / nyquist
+    b, a = butter(1, normal_cutoff, btype='high', analog=False)
+    filtered_audio = lfilter(b, a, audio)
+    return filtered_audio
+# Function to apply wavelet denoising
+def wavelet_denoise(audio, wavelet='db1', level=1):
+    coeffs = pywt.wavedec(audio, wavelet, mode='per')
+    sigma = np.median(np.abs(coeffs[-level])) / 0.5
+    uthresh = sigma * np.sqrt(2 * np.log(len(audio)))
+    coeffs[1:] = [pywt.threshold(i, value=uthresh, mode='soft') for i in coeffs[1:]]
+    return pywt.waverec(coeffs, wavelet, mode='per')
 # Function to apply a Wiener filter for noise reduction
 def apply_wiener_filter(audio):
     return wiener(audio)
 # Function to handle speech recognition
 def recognize_speech(audio_file):
     audio, sr = librosa.load(audio_file, sr=16000)
     print(converted_text)
     return converted_text
 def sel_lng(lng, mic=None, file=None):
     if mic is not None:
         audio = mic