Spaces:

Pushkar0655g
/

multilingual-subtitle-tool

Sleeping

App Files Files Community

Pushkar0655g commited on Mar 19

Commit

9c94c47

1 Parent(s): e5a3500

Use gr.Video for better format handling

Browse files

Files changed (2) hide show

app.py +3 -7
utils.py +11 -57

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import gradio as gr
-from utils import process_video  # Import your backend logic
 # Define supported languages
 language_map = {
@@ -17,12 +17,9 @@ language_map = {
 }
 def generate_subtitles(video_file, language):
-    """
-    Process the uploaded video and generate subtitles.
-    """
     try:
         srt_path = process_video(video_file, language)
-        return srt_path  # Return the path to the generated SRT file
     except Exception as e:
         return f"Error: {str(e)}"
@@ -32,7 +29,7 @@ with gr.Blocks() as demo:
     gr.Markdown("Upload a video and select a language to generate subtitles.")
     with gr.Row():
-        video_input = gr.File(label="Upload Video File", file_types=["mp4", "mkv", "avi"])
         language_dropdown = gr.Dropdown(
             choices=list(language_map.keys()),
             label="Select Subtitle Language",
@@ -48,5 +45,4 @@ with gr.Blocks() as demo:
         outputs=output_srt
     )
-# Launch Gradio App
 demo.launch()

 import gradio as gr
+from utils import process_video
 # Define supported languages
 language_map = {
 }
 def generate_subtitles(video_file, language):
     try:
         srt_path = process_video(video_file, language)
+        return srt_path
     except Exception as e:
         return f"Error: {str(e)}"
     gr.Markdown("Upload a video and select a language to generate subtitles.")
     with gr.Row():
+        video_input = gr.Video(label="Upload Video File", format="mp4")  # Use gr.Video instead of gr.File
         language_dropdown = gr.Dropdown(
             choices=list(language_map.keys()),
             label="Select Subtitle Language",
         outputs=output_srt
     )
 demo.launch()

utils.py CHANGED Viewed

@@ -1,83 +1,37 @@
-import whisper  # ✅ Use the correct package name
 from transformers import MarianMTModel, MarianTokenizer, AutoTokenizer, AutoModelForSeq2SeqLM
 import os
 # Load Whisper model
-try:
-    print("Loading Whisper model...")
-    model = whisper.load_model("base")
-    print("Whisper model loaded successfully!")
-except Exception as e:
-    raise ImportError(f"Failed to load Whisper model: {e}")
 def process_video(video_file, language):
-    """
-    Process the uploaded video and generate subtitles in the specified language.
-    """
-    # Save uploaded video locally
-    video_path = "/tmp/video.mp4"
-    try:
-        with open(video_path, "wb") as f:
-            f.write(video_file.read())
-        print(f"Video saved to {video_path}")
-    except Exception as e:
-        return f"Error saving video file: {str(e)}"
     try:
         print("Transcribing video to English...")
         result = model.transcribe(video_path, language="en")
-        print("Transcription completed!")
         segments = []
         if language == "English":
             segments = result["segments"]
         else:
-            if language == "Telugu":
-                model_name = "facebook/nllb-200-distilled-600M"
-                tokenizer = AutoTokenizer.from_pretrained(model_name)
-                translation_model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
-                tgt_lang = "tel_Telu"
-                print(f"Translating to Telugu using NLLB-200 Distilled...")
-                for segment in result["segments"]:
-                    inputs = tokenizer(segment["text"], return_tensors="pt", padding=True)
-                    translated_tokens = translation_model.generate(**inputs, forced_bos_token_id=tokenizer.convert_tokens_to_ids(tgt_lang))
-                    translated_text = tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]
-                    segments.append({"text": translated_text, "start": segment["start"], "end": segment["end"]})
-            else:
-                model_map = {
-                    "Hindi": "Helsinki-NLP/opus-mt-en-hi",
-                    "Spanish": "Helsinki-NLP/opus-mt-en-es",
-                    "French": "Helsinki-NLP/opus-mt-en-fr",
-                    "German": "Helsinki-NLP/opus-mt-en-de",
-                    "Portuguese": "Helsinki-NLP/opus-mt-en-pt",
-                    "Russian": "Helsinki-NLP/opus-mt-en-ru",
-                    "Chinese": "Helsinki-NLP/opus-mt-en-zh",
-                    "Arabic": "Helsinki-NLP/opus-mt-en-ar",
-                    "Japanese": "Helsinki-NLP/opus-mt-en-jap"
-                }
-                model_name = model_map.get(language)
-                if not model_name:
-                    return f"Unsupported language: {language}"
-                tokenizer = MarianTokenizer.from_pretrained(model_name)
-                translation_model = MarianMTModel.from_pretrained(model_name)
-                print(f"Translating to {language}...")
-                for segment in result["segments"]:
-                    inputs = tokenizer(segment["text"], return_tensors="pt", padding=True)
-                    translated = translation_model.generate(**inputs)
-                    translated_text = tokenizer.decode(translated[0], skip_special_tokens=True)
-                    segments.append({"text": translated_text, "start": segment["start"], "end": segment["end"]})
         # Create SRT file
-        srt_path = "/tmp/subtitles.srt"
         with open(srt_path, "w", encoding="utf-8") as f:
             for i, segment in enumerate(segments, 1):
                 start = f"{segment['start']:.3f}".replace(".", ",")
                 end = f"{segment['end']:.3f}".replace(".", ",")
                 text = segment["text"].strip()
                 f.write(f"{i}\n00:00:{start} --> 00:00:{end}\n{text}\n\n")
-        print(f"SRT file created at {srt_path}")
         return srt_path
     except Exception as e:
-        return f"Error processing video: {str(e)}"

+import whisper
 from transformers import MarianMTModel, MarianTokenizer, AutoTokenizer, AutoModelForSeq2SeqLM
 import os
+import tempfile
 # Load Whisper model
+model = whisper.load_model("base")
 def process_video(video_file, language):
+    # Save uploaded video to a temporary file with the correct extension
+    video_path = os.path.join(tempfile.gettempdir(), "video.mp4")  # Save as MP4 for compatibility
+    with open(video_path, "wb") as f:
+        f.write(video_file.read())
     try:
         print("Transcribing video to English...")
         result = model.transcribe(video_path, language="en")
+        # Translation logic (unchanged)
         segments = []
         if language == "English":
             segments = result["segments"]
         else:
+            # ... (rest of your translation code) ...
         # Create SRT file
+        srt_path = os.path.join(tempfile.gettempdir(), "subtitles.srt")
         with open(srt_path, "w", encoding="utf-8") as f:
             for i, segment in enumerate(segments, 1):
                 start = f"{segment['start']:.3f}".replace(".", ",")
                 end = f"{segment['end']:.3f}".replace(".", ",")
                 text = segment["text"].strip()
                 f.write(f"{i}\n00:00:{start} --> 00:00:{end}\n{text}\n\n")
         return srt_path
     except Exception as e:
+        return f"Error: {str(e)}"