Spaces:

fffiloni
/

vta-ldm

Running on Zero

App Files Files Community

fffiloni commited on Jul 25, 2024

Commit

6c718bc

verified ·

1 Parent(s): 4d1bdc0

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -8

app.py CHANGED Viewed

@@ -7,6 +7,7 @@ import shutil
 import numpy as np
 import matplotlib.pyplot as plt
 from scipy.io import wavfile
 # download model
 huggingface_hub.snapshot_download(
@@ -71,7 +72,7 @@ def plot_spectrogram(wav_file, output_image):
         audio_data = audio_data.mean(axis=1)
     # Create a plot for the spectrogram
-    plt.figure(figsize=(10, 1))
     plt.specgram(audio_data, Fs=sample_rate, NFFT=1024, noverlap=512, cmap='gray', aspect='auto')
     # Remove gridlines and ticks for a cleaner look
@@ -81,7 +82,22 @@ def plot_spectrogram(wav_file, output_image):
     # Save the plot as an image file
     plt.savefig(output_image, bbox_inches='tight', pad_inches=0, dpi=300)
-    plt.close()
 def infer(video_in):
@@ -124,15 +140,18 @@ def infer(video_in):
 with gr.Blocks() as demo:
     with gr.Column(elem_id="col-container"):
         gr.Markdown("# Video-To-Audio")
-        video_in = gr.Video(label='Video IN')
-        submit_btn = gr.Button("Submit")
-        output_sound = gr.Audio(label="Audio OUT")
-        output_spectrogram = gr.Image(label='Spectrogram')
-        #output_sound = gr.Textbox(label="Audio OUT")
     submit_btn.click(
         fn = infer,
         inputs = [video_in],
-        outputs = [output_sound, output_spectrogram],
         show_api = False
     )
 demo.launch(show_api=False, show_error=True)

 import numpy as np
 import matplotlib.pyplot as plt
 from scipy.io import wavfile
+from moviepy.editor import VideoFileClip, AudioFileClip
 # download model
 huggingface_hub.snapshot_download(
         audio_data = audio_data.mean(axis=1)
     # Create a plot for the spectrogram
+    plt.figure(figsize=(10, 2))
     plt.specgram(audio_data, Fs=sample_rate, NFFT=1024, noverlap=512, cmap='gray', aspect='auto')
     # Remove gridlines and ticks for a cleaner look
     # Save the plot as an image file
     plt.savefig(output_image, bbox_inches='tight', pad_inches=0, dpi=300)
+    plt.close
+def merge_audio_to_video(input_vid, input_aud):
+    # Load the video file
+    video = VideoFileClip(input_vid)
+    # Load the new audio file
+    new_audio = AudioFileClip(input_aud)
+    # Set the new audio to the video
+    video_with_new_audio = video.set_audio(new_audio)
+    # Save the result to a new file
+    video_with_new_audio.write_videofile("output_video.mp4", codec='libx264', audio_codec='aac')
+    return "output_video.mp4"
 def infer(video_in):
 with gr.Blocks() as demo:
     with gr.Column(elem_id="col-container"):
         gr.Markdown("# Video-To-Audio")
+        with gr.Row():
+            video_in = gr.Video(label='Video IN')
+            submit_btn = gr.Button("Submit")
+        with gr.Row():
+            output_sound = gr.Audio(label="Audio OUT")
+            output_spectrogram = gr.Image(label='Spectrogram')
+            merged_out = gr.Video(label="Merged video + generated audio")
     submit_btn.click(
         fn = infer,
         inputs = [video_in],
+        outputs = [output_sound, output_spectrogram, merged_out],
         show_api = False
     )
 demo.launch(show_api=False, show_error=True)