Spaces:

ai4bharat
/

indic-conformer

Running

App Files Files Community

Sj8287 commited on 15 days ago

Commit

e2d93c0

1 Parent(s): dd47eea

initial commit

Browse files

Files changed (3) hide show

README.md +1 -0
app.py +180 -0
requirements.txt +21 -0

README.md CHANGED Viewed

@@ -8,6 +8,7 @@ sdk_version: 5.20.1
 app_file: app.py
 pinned: false
 license: cc-by-4.0
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 app_file: app.py
 pinned: false
 license: cc-by-4.0
+short_description: A speech recognition tool for Indic languages.
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,180 @@

+from __future__ import annotations
+import os
+import gradio as gr
+import torch
+import torchaudio
+import spaces
+import nemo.collections.asr as nemo_asr
+LANGUAGE_NAME_TO_CODE = {
+    "Assamese": "as",
+    "Bengali": "bn",
+    "Bodo": "br",
+    "Dogri": "doi",
+    "Gujarati": "gu",
+    "Hindi": "hi",
+    "Kannada": "kn",
+    "Kashmiri": "ks",
+    "Konkani": "kok",
+    "Maithili": "mai",
+    "Malayalam": "ml",
+    "Manipuri": "mni",
+    "Marathi": "mr",
+    "Nepali": "ne",
+    "Odia": "or",
+    "Punjabi": "pa",
+    "Sanskrit": "sa",
+    "Santali": "sat",
+    "Sindhi": "sd",
+    "Tamil": "ta",
+    "Telugu": "te",
+    "Urdu": "ur"
+}
+DESCRIPTION = """\
+### **IndicConformer: Speech Recognition for Indian Languages** 🎙️➡️📜
+This Gradio demo showcases **IndicConformer**, a speech recognition model for **22 Indian languages**. The model operates in two modes: **CTC (Connectionist Temporal Classification)** and **RNNT (Recurrent Neural Network Transducer)**, providing robust and accurate transcriptions across diverse linguistic and acoustic conditions.
+#### **How to Use:**
+1. **Upload or record** an audio clip in any supported Indian language.
+2. Select the **mode** (CTC or RNNT) for transcription.
+3. Click **"Transcribe"** to generate the corresponding text in the target language.
+4. View or copy the output for further use.
+🚀 Try it out and experience seamless speech recognition for Indian languages!
+"""
+hf_token = os.getenv("HF_TOKEN")
+device = "cuda:0" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu"
+torch_dtype = torch.bfloat16 if device != "cpu" else torch.float32
+model_name_or_path = "ai4bharat/indicconformer_stt_bn_hybrid_ctc_rnnt_large"
+model = nemo_asr.models.EncDecCTCModel.from_pretrained(model_name_or_path).to(device)
+model.eval()
+CACHE_EXAMPLES = os.getenv("CACHE_EXAMPLES") == "1" and torch.cuda.is_available()
+AUDIO_SAMPLE_RATE = 16000
+MAX_INPUT_AUDIO_LENGTH = 60  # in seconds
+DEFAULT_TARGET_LANGUAGE = "Bengali"
+@spaces.GPU
+def run_asr_ctc(input_audio: str, target_language: str) -> str:
+    # preprocess_audio(input_audio)
+    input_audio, orig_freq = torchaudio.load(input_audio)
+    input_audio = torchaudio.functional.resample(input_audio, orig_freq=orig_freq, new_freq=16000)
+    lang_id = LANGUAGE_NAME_TO_CODE[target_language]
+    model.cur_decoder = "ctc"
+    ctc_text = model.transcribe(['sample_audio_infer_ready.wav'], batch_size=1,logprobs=False, language_id=lang_id)[0]
+    return ctc_text
+@spaces.GPU
+def run_asr_rnnt(input_audio: str, target_language: str) -> str:
+    # preprocess_audio(input_audio)
+    input_audio, orig_freq = torchaudio.load(input_audio)
+    input_audio = torchaudio.functional.resample(input_audio, orig_freq=orig_freq, new_freq=16000)
+    lang_id = LANGUAGE_NAME_TO_CODE[target_language]
+    model.cur_decoder = "rnnt"
+    ctc_text = model.transcribe(['sample_audio_infer_ready.wav'], batch_size=1,logprobs=False, language_id=lang_id)[0]
+    return ctc_text
+with gr.Blocks() as demo_asr_ctc:
+    with gr.Row():
+        with gr.Column():
+            with gr.Group():
+                input_audio = gr.Audio(label="Input speech", type="filepath")
+                target_language = gr.Dropdown(
+                    label="Target language",
+                    choices=LANGUAGE_NAME_TO_CODE.keys(),
+                    value=DEFAULT_TARGET_LANGUAGE,
+                )
+            btn = gr.Button("Transcribe")
+        with gr.Column():
+            output_text = gr.Textbox(label="Transcribed text")
+    gr.Examples(
+        examples=[
+            ["assets/Bengali.wav", "Bengali", "English"],
+            ["assets/Gujarati.wav", "Gujarati", "Hindi"],
+            ["assets/Punjabi.wav", "Punjabi", "Hindi"],
+        ],
+        inputs=[input_audio, target_language],
+        outputs=output_text,
+        fn=run_asr_ctc,
+        cache_examples=CACHE_EXAMPLES,
+        api_name=False,
+    )
+    btn.click(
+        fn=run_asr_ctc,
+        inputs=[input_audio, target_language],
+        outputs=output_text,
+        api_name="asr",
+    )
+with gr.Blocks() as demo_asr_rnnt:
+    with gr.Row():
+        with gr.Column():
+            with gr.Group():
+                input_audio = gr.Audio(label="Input speech", type="filepath")
+                target_language = gr.Dropdown(
+                    label="Target language",
+                    choices=LANGUAGE_NAME_TO_CODE.keys(),
+                    value=DEFAULT_TARGET_LANGUAGE,
+                )
+            btn = gr.Button("Transcribe")
+        with gr.Column():
+            output_text = gr.Textbox(label="Transcribed text")
+    gr.Examples(
+        examples=[
+            ["assets/Bengali.wav", "Bengali", "English"],
+            ["assets/Gujarati.wav", "Gujarati", "Hindi"],
+            ["assets/Punjabi.wav", "Punjabi", "Hindi"],
+        ],
+        inputs=[input_audio, target_language],
+        outputs=output_text,
+        fn=run_asr_rnnt,
+        cache_examples=CACHE_EXAMPLES,
+        api_name=False,
+    )
+    btn.click(
+        fn=run_asr_rnnt,
+        inputs=[input_audio, target_language],
+        outputs=output_text,
+        api_name="asr",
+    )
+with gr.Blocks(css="style.css") as demo:
+    gr.Markdown(DESCRIPTION)
+    gr.DuplicateButton(
+        value="Duplicate Space for private use",
+        elem_id="duplicate-button",
+        visible=os.getenv("SHOW_DUPLICATE_BUTTON") == "1",
+    )
+    with gr.Tabs():
+        with gr.Tab(label="CTC"):
+            demo_asr_ctc.render()
+        with gr.Tab(label="RNNT"):
+            demo_asr_rnnt.render()
+if __name__ == "__main__":
+    demo.queue(max_size=50).launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,21 @@

+cython==0.29.37
+pyyaml==6.0.2
+argparse==1.4.0
+onnxruntime==1.19.0
+tqdm==4.66.5
+nemo_toolkit @ git+https://github.com/AI4Bharat/NeMo@nemo-v2
+transformers==4.40.0
+huggingface_hub==0.23
+pytorch-lightning==2.4.0
+hydra-core==1.3.2
+librosa==0.10.2.post1
+sentencepiece==0.2.0
+pandas==2.2.2
+lhotse==1.27.0
+editdistance==0.8.1
+jiwer==3.0.4
+pyannote.audio==3.3.1
+webdataset==0.2.100
+datasets==2.21.0
+IPython==8.27.0
+joblib==1.4.2