Spaces:

adeery
/

musicgen_austen

Runtime error

adeery commited on Apr 22

Commit

e726d1c

verified ·

1 Parent(s): c9e6713

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,7 +3,6 @@ import torch
 import torchaudio
 from transformers import MusicgenForConditionalGeneration, MusicgenProcessor
-# Load melody-capable model
 model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-melody", torch_dtype=torch.float32)
 processor = MusicgenProcessor.from_pretrained("facebook/musicgen-melody")
@@ -11,24 +10,26 @@ def generate_music(prompt, melody):
     if melody is None:
         return None
-    # Load melody audio file
     melody_waveform, melody_sr = torchaudio.load(melody)
-    if melody_sr != 16000:
-        resampler = torchaudio.transforms.Resample(orig_freq=melody_sr, new_freq=16000)
         melody_waveform = resampler(melody_waveform)
     # Trim or pad to 30 seconds
-    melody_waveform = melody_waveform[:, :16000 * 30]
-    inputs = processor(audio=melody_waveform, sampling_rate=16000, text=[prompt], return_tensors="pt")
     outputs = model.generate(**inputs, max_new_tokens=1024)
     audio_array = outputs[0].cpu().numpy()
     return (audio_array, model.config.audio_encoder.sampling_rate)
 demo = gr.Interface(
     fn=generate_music,
     inputs=[
-        gr.Textbox(label="Prompt", placeholder="e.g., Funky jazz with synths"),
         gr.Audio(source="upload", type="filepath", label="Melody Input (WAV or MP3)")
     ],
     outputs=gr.Audio(label="Generated Track"),

 import torchaudio
 from transformers import MusicgenForConditionalGeneration, MusicgenProcessor
 model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-melody", torch_dtype=torch.float32)
 processor = MusicgenProcessor.from_pretrained("facebook/musicgen-melody")
     if melody is None:
         return None
+    # Load and resample melody to 32kHz
     melody_waveform, melody_sr = torchaudio.load(melody)
+    if melody_sr != 32000:
+        resampler = torchaudio.transforms.Resample(orig_freq=melody_sr, new_freq=32000)
         melody_waveform = resampler(melody_waveform)
     # Trim or pad to 30 seconds
+    melody_waveform = melody_waveform[:, :32000 * 30]
+    # Run the model
+    inputs = processor(audio=melody_waveform, sampling_rate=32000, text=[prompt], return_tensors="pt")
     outputs = model.generate(**inputs, max_new_tokens=1024)
     audio_array = outputs[0].cpu().numpy()
     return (audio_array, model.config.audio_encoder.sampling_rate)
 demo = gr.Interface(
     fn=generate_music,
     inputs=[
+        gr.Textbox(label="Prompt", placeholder="e.g., mellow lofi beat with piano"),
         gr.Audio(source="upload", type="filepath", label="Melody Input (WAV or MP3)")
     ],
     outputs=gr.Audio(label="Generated Track"),