Spaces:

JabriA
/

MyIVR

Sleeping

App Files Files Community

JabriA commited on Jan 17

Commit

6c74174

1 Parent(s): 105a56b

Add transcription and topic extraction app

Browse files

Files changed (2) hide show

app.py +29 -9
requirements.txt +3 -3

app.py CHANGED Viewed

@@ -1,17 +1,36 @@
 import gradio as gr
-import whisper
-from transformers import pipeline
 # Load models
-model = whisper.load_model("base")
 summarizer = pipeline("summarization", model="t5-small")
 # Function to transcribe and summarize
 def transcribe_and_summarize(audio_file):
     # Transcription
-    result = model.transcribe(audio_file)
-    transcription = result["text"]
     # Summarization
     summary = summarizer(transcription, max_length=50, min_length=10, do_sample=False)[0]["summary_text"]
     return transcription, summary
@@ -27,9 +46,10 @@ app = gr.Interface(
     fn=transcribe_and_summarize,
     inputs=inputs,
     outputs=outputs,
-    title="Audio Transcription and Summarization",
-    description="Upload an audio file to get its transcription and a summarized version of the content."
 )
 # Launch the app
-app.launch()

 import gradio as gr
+import torch
+from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC, pipeline
+import soundfile as sf
 # Load models
+# Transcription model for Moroccan Darija
+processor = Wav2Vec2Processor.from_pretrained("achrafkhannoussi/Wav2Vec2-Large-XLSR-53-Moroccan-Darija")
+transcription_model = Wav2Vec2ForCTC.from_pretrained("achrafkhannoussi/Wav2Vec2-Large-XLSR-53-Moroccan-Darija")
+# Summarization model
 summarizer = pipeline("summarization", model="t5-small")
+# Function to transcribe audio using Wav2Vec2
+def transcribe_audio(audio_path):
+    # Load and preprocess audio
+    audio_input, sample_rate = sf.read(audio_path)
+    inputs = processor(audio_input, sampling_rate=sample_rate, return_tensors="pt", padding=True)
+    # Get predictions
+    with torch.no_grad():
+        logits = transcription_model(**inputs).logits
+    # Decode predictions
+    predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = processor.batch_decode(predicted_ids)[0]
+    return transcription
 # Function to transcribe and summarize
 def transcribe_and_summarize(audio_file):
     # Transcription
+    transcription = transcribe_audio(audio_file)
     # Summarization
     summary = summarizer(transcription, max_length=50, min_length=10, do_sample=False)[0]["summary_text"]
     return transcription, summary
     fn=transcribe_and_summarize,
     inputs=inputs,
     outputs=outputs,
+    title="Moroccan Darija Audio Transcription and Summarization",
+    description="Upload an audio file in Moroccan Darija to get its transcription and a summarized version of the content."
 )
 # Launch the app
+if __name__ == "__main__":
+    app.launch()

requirements.txt CHANGED Viewed

@@ -1,4 +1,4 @@
-openai-whisper
-gradio>=3.40.2
 transformers
-torch  # Required by Whisper

+gradio
 transformers
+torch
+soundfile