grad-svc

Sleeping

App Files Files Community

R-Kentaren commited on Aug 3

Commit

8a50537

verified ·

1 Parent(s): d56ba5f

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -42

app.py CHANGED Viewed

@@ -1,25 +1,27 @@
-import sys,os
-sys.path.append(os.path.dirname(os.path.abspath(__file__)))
 import torch
 from omegaconf import OmegaConf
 from pitch import load_csv_pitch
 from grad.utils import fix_len_compatibility
 from grad.model import GradTTS
 from bigvgan.model.generator import Generator
 import gradio as gr
 import numpy as np
 import soundfile
 import librosa
 import logging
 logging.getLogger('numba').setLevel(logging.WARNING)
 logging.getLogger('markdown_it').setLevel(logging.WARNING)
 logging.getLogger('urllib3').setLevel(logging.WARNING)
 logging.getLogger('matplotlib').setLevel(logging.WARNING)
 def load_gvc_model(checkpoint_path, model):
     assert os.path.isfile(checkpoint_path)
     checkpoint_dict = torch.load(checkpoint_path, map_location="cpu")
@@ -30,12 +32,12 @@ def load_gvc_model(checkpoint_path, model):
         try:
             new_state_dict[k] = saved_state_dict[k]
         except:
-            print("%s is not in the checkpoint" % k)
             new_state_dict[k] = v
     model.load_state_dict(new_state_dict)
     return model
 def load_bigv_model(checkpoint_path, model):
     assert os.path.isfile(checkpoint_path)
     checkpoint_dict = torch.load(checkpoint_path, map_location="cpu")
@@ -46,12 +48,12 @@ def load_bigv_model(checkpoint_path, model):
         try:
             new_state_dict[k] = saved_state_dict[k]
         except:
-            print("%s is not in the checkpoint" % k)
             new_state_dict[k] = v
     model.load_state_dict(new_state_dict)
     return model
 @torch.no_grad()
 def gvc_main(device, model, _vec, _pit, spk, rature=1.015):
     l_vec = _vec.shape[0]
@@ -67,9 +69,8 @@ def gvc_main(device, model, _vec, _pit, spk, rature=1.015):
     y_dec = y_dec[:, :l_vec]
     return y_dec
 def svc_change(argswav, argsspk):
     argsvec = "svc_tmp.ppg.npy"
     os.system(f"python hubert/inference.py -w {argswav} -v {argsvec}")
     argspit = "svc_tmp.pit.npy"
@@ -79,11 +80,13 @@ def svc_change(argswav, argsspk):
     hps = OmegaConf.load('configs/base.yaml')
     print('Initializing Grad-TTS...')
-    model = GradTTS(hps.grad.n_mels, hps.grad.n_vecs, hps.grad.n_pits, hps.grad.n_spks, hps.grad.n_embs,
-                    hps.grad.n_enc_channels, hps.grad.filter_channels,
-                    hps.grad.dec_dim, hps.grad.beta_min, hps.grad.beta_max, hps.grad.pe_scale)
-    print('Number of encoder parameters = %.2fm' % (model.encoder.nparams/1e6))
-    print('Number of decoder parameters = %.2fm' % (model.decoder.nparams/1e6))
     load_gvc_model('grad_pretrain/gvc.pretrain.pth', model)
     model.eval()
@@ -108,22 +111,21 @@ def svc_change(argswav, argsspk):
     with torch.no_grad():
         spk = spk.unsqueeze(0).to(device)
         all_frame = len_min
         hop_frame = 8
-        out_chunk = 2400  # 24 S
         out_index = 0
         mel = None
-        while (out_index < all_frame):
-            if (out_index == 0):  # start frame
                 cut_s = 0
                 cut_s_out = 0
             else:
                 cut_s = out_index - hop_frame
                 cut_s_out = hop_frame
-            if (out_index + out_chunk + hop_frame > all_frame):  # end frame
                 cut_e = all_frame
                 cut_e_out = -1
             else:
@@ -135,9 +137,9 @@ def svc_change(argswav, argsspk):
             sub_out = gvc_main(device, model, sub_vec, sub_pit, spk, 0.95)
             sub_out = sub_out[:, cut_s_out:cut_e_out]
             out_index = out_index + out_chunk
-            if mel == None:
                 mel = sub_out
             else:
                 mel = torch.cat((mel, sub_out), -1)
@@ -175,41 +177,55 @@ def svc_change(argswav, argsspk):
     return audio
 def svc_main(sid, input_audio):
     if input_audio is None:
-        return "You need to upload an audio", None
     sampling_rate, audio = input_audio
     audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
     if len(audio.shape) > 1:
         audio = librosa.to_mono(audio.transpose(1, 0))
     if sampling_rate != 16000:
         audio = librosa.resample(audio, orig_sr=sampling_rate, target_sr=16000)
-    if (len(audio) > 16000*100):
-        audio = audio[:16000*100]
-    wav_path = "temp.wav"
     soundfile.write(wav_path, audio, 16000, format="wav")
     out_audio = svc_change(wav_path, f"configs/singers/singer00{sid}.npy")
-    return "Success", (32000, out_audio)
 app = gr.Blocks()
 with app:
     with gr.Tabs():
         with gr.TabItem("Grad-SVC"):
             gr.Markdown(
-                "Based on Grad-TTS from HUAWEI Noah's Ark Lab\n\n"
-                "This project is named as [Grad-SVC](), or [GVC]() for short. Its core technology is diffusion, but so different from other diffusion based SVC models.\n\n"
-                "<video id='video' controls='' preload='yes'>\n\n"
-                "<source id='mp4' src='https://github.com/PlayVoice/Grad-SVC/assets/16432329/f9b66af7-b5b5-4efb-b73d-adb0dc84a0ae' type='video/mp4'>\n\n"
-                "</videos>\n\n"
-                )
-            sid = gr.Dropdown(label="音色", choices=[
-                              "22", "33", "47", "51"], value="47")
-            vc_input3 = gr.Audio(label="上传音频")
-            vc_submit = gr.Button("转换", variant="primary")
-            vc_output1 = gr.Textbox(label="状态信息")
-            vc_output2 = gr.Audio(label="转换音频")
         vc_submit.click(svc_main, [sid, vc_input3], [vc_output1, vc_output2])
-    app.launch(share=True)

+import sys
+import os
 import torch
 from omegaconf import OmegaConf
 from pitch import load_csv_pitch
 from grad.utils import fix_len_compatibility
 from grad.model import GradTTS
 from bigvgan.model.generator import Generator
 import gradio as gr
 import numpy as np
 import soundfile
 import librosa
 import logging
+# Set logging levels to suppress unnecessary warnings
 logging.getLogger('numba').setLevel(logging.WARNING)
 logging.getLogger('markdown_it').setLevel(logging.WARNING)
 logging.getLogger('urllib3').setLevel(logging.WARNING)
 logging.getLogger('matplotlib').setLevel(logging.WARNING)
+# Append current working directory to system path
+sys.path.append(os.getcwd())
+# Function to load Grad-TTS model checkpoint
 def load_gvc_model(checkpoint_path, model):
     assert os.path.isfile(checkpoint_path)
     checkpoint_dict = torch.load(checkpoint_path, map_location="cpu")
         try:
             new_state_dict[k] = saved_state_dict[k]
         except:
+            print(f"{k} is not in the checkpoint")
             new_state_dict[k] = v
     model.load_state_dict(new_state_dict)
     return model
+# Function to load BigVGAN model checkpoint
 def load_bigv_model(checkpoint_path, model):
     assert os.path.isfile(checkpoint_path)
     checkpoint_dict = torch.load(checkpoint_path, map_location="cpu")
         try:
             new_state_dict[k] = saved_state_dict[k]
         except:
+            print(f"{k} is not in the checkpoint")
             new_state_dict[k] = v
     model.load_state_dict(new_state_dict)
     return model
+# Main Grad-TTS inference function
 @torch.no_grad()
 def gvc_main(device, model, _vec, _pit, spk, rature=1.015):
     l_vec = _vec.shape[0]
     y_dec = y_dec[:, :l_vec]
     return y_dec
+# Function to process input audio and extract features
 def svc_change(argswav, argsspk):
     argsvec = "svc_tmp.ppg.npy"
     os.system(f"python hubert/inference.py -w {argswav} -v {argsvec}")
     argspit = "svc_tmp.pit.npy"
     hps = OmegaConf.load('configs/base.yaml')
     print('Initializing Grad-TTS...')
+    model = GradTTS(
+        hps.grad.n_mels, hps.grad.n_vecs, hps.grad.n_pits, hps.grad.n_spks,
+        hps.grad.n_embs, hps.grad.n_enc_channels, hps.grad.filter_channels,
+        hps.grad.dec_dim, hps.grad.beta_min, hps.grad.beta_max, hps.grad.pe_scale
+    )
+    print(f'Number of encoder parameters = {model.encoder.nparams/1e6:.2f}m')
+    print(f'Number of decoder parameters = {model.decoder.nparams/1e6:.2f}m')
     load_gvc_model('grad_pretrain/gvc.pretrain.pth', model)
     model.eval()
     with torch.no_grad():
         spk = spk.unsqueeze(0).to(device)
         all_frame = len_min
         hop_frame = 8
+        out_chunk = 2400  # 24 seconds
         out_index = 0
         mel = None
+        while out_index < all_frame:
+            if out_index == 0:  # Start frame
                 cut_s = 0
                 cut_s_out = 0
             else:
                 cut_s = out_index - hop_frame
                 cut_s_out = hop_frame
+            if out_index + out_chunk + hop_frame > all_frame:  # End frame
                 cut_e = all_frame
                 cut_e_out = -1
             else:
             sub_out = gvc_main(device, model, sub_vec, sub_pit, spk, 0.95)
             sub_out = sub_out[:, cut_s_out:cut_e_out]
             out_index = out_index + out_chunk
+            if mel is None:
                 mel = sub_out
             else:
                 mel = torch.cat((mel, sub_out), -1)
     return audio
+# Main function to handle audio input and conversion
 def svc_main(sid, input_audio):
     if input_audio is None:
+        return "You need to upload an audio file", None
     sampling_rate, audio = input_audio
     audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
     if len(audio.shape) > 1:
         audio = librosa.to_mono(audio.transpose(1, 0))
     if sampling_rate != 16000:
         audio = librosa.resample(audio, orig_sr=sampling_rate, target_sr=16000)
+    if len(audio) > 16000 * 100:
+        audio = audio[:16000 * 100]
+    separator = Separator()
+    separator.load_model()
+    output_names = {
+        "Vocals": "vocals_output",
+        "Instrumental": "instrumental_output",
+    }
+    output_files = separator.separate(audio, output_names)
+    wav_path = "vocals_output.wav"
     soundfile.write(wav_path, audio, 16000, format="wav")
     out_audio = svc_change(wav_path, f"configs/singers/singer00{sid}.npy")
+    return "Conversion Successful", (32000, out_audio)
+# Gradio WebUI setup
 app = gr.Blocks()
 with app:
     with gr.Tabs():
         with gr.TabItem("Grad-SVC"):
             gr.Markdown(
+                """
+                Based on Grad-TTS from HUAWEI Noah's Ark Lab
+                This project is named Grad-SVC, or GVC for short. Its core technology is diffusion, but it is very different from other diffusion-based SVC models.
+                <video id='video' controls='' preload='yes'>
+                <source id='mp4' src='https://github.com/PlayVoice/Grad-SVC/assets/16432329/f9b66af7-b5b5-4efb-b73d-adb0dc84a0ae' type='video/mp4'>
+                </video>
+                """
+            )
+            sid = gr.Dropdown(label="Voice Tone", choices=["22", "33", "47", "51"], value="47")
+            vc_input3 = gr.Audio(label="Upload Audio")
+            vc_submit = gr.Button("Convert", variant="primary")
+            vc_output1 = gr.Textbox(label="Status Information")
+            vc_output2 = gr.Audio(label="Converted Audio")
         vc_submit.click(svc_main, [sid, vc_input3], [vc_output1, vc_output2])
+# Launch the Gradio app
+app.launch(share=True)