bert-vits2-multi-voice

Runtime error

App Files Files Community

Ailyth commited on Oct 3, 2023

Commit

e9073c2

1 Parent(s): 8788adc

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -9

app.py CHANGED Viewed

@@ -84,10 +84,11 @@ def convert_wav_to_mp3(wav_file):
     os.system(" ".join(command))
     return output_path_mp3
-def tts_generator(text, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale, model):
-    global net_g
     model_path = models[model]
     net_g, _, _, _ = utils.load_checkpoint(model_path, net_g, None, skip_optimizer=True)
     try:
         with torch.no_grad():
             audio = infer(text, sdp_ratio=sdp_ratio, noise_scale=noise_scale, noise_scale_w=noise_scale_w, length_scale=length_scale, sid=speaker,model_dir=model)
@@ -111,10 +112,18 @@ if __name__ == "__main__":
     _ = net_g.eval()
     speaker_ids = hps.data.spk2id
-    speakers = list(speaker_ids.keys())
-    with gr.Blocks() as app:
-        with gr.Row():
             with gr.Column():
                 gr.Markdown("测试用")
@@ -123,8 +132,8 @@ if __name__ == "__main__":
                                 info="使用huggingface的免费CPU进行推理，因此速度不快，一次性不要输入超过500汉字")
                 model = gr.Radio(choices=list(models.keys()), value=list(models.keys())[0], label='音声模型')
                 #model = gr.Dropdown(choices=models,value=models[0], label='音声模型')
-                speaker = gr.Radio(choices=speakers, value=speakers[0], label='Speaker')
-                gr.Markdown(value="生成参数，效果玄学")
                 sdp_ratio = gr.Slider(minimum=0, maximum=1, value=0.2, step=0.01, label='语调变化')
                 noise_scale = gr.Slider(minimum=0.1, maximum=1.5, value=0.5, step=0.01, label='感情变化')
                 noise_scale_w = gr.Slider(minimum=0.1, maximum=1.4, value=0.9, step=0.01, label='音节长度')
@@ -139,7 +148,7 @@ if __name__ == "__main__":
                 """)
         btn.click(
                 tts_generator,
-                inputs=[text, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale, model],
                 outputs=[text_output, audio_output,MP3_output]
                 )

     os.system(" ".join(command))
     return output_path_mp3
+def tts_generator(text,  sdp_ratio, noise_scale, noise_scale_w, length_scale, model):
+    global net_g,speakers
     model_path = models[model]
     net_g, _, _, _ = utils.load_checkpoint(model_path, net_g, None, skip_optimizer=True)
     try:
         with torch.no_grad():
             audio = infer(text, sdp_ratio=sdp_ratio, noise_scale=noise_scale, noise_scale_w=noise_scale_w, length_scale=length_scale, sid=speaker,model_dir=model)
     _ = net_g.eval()
     speaker_ids = hps.data.spk2id
+    speaker = list(speaker_ids.keys())[0]
+    css='''
+        #main {background-color: #ffffff;opacity: 0.8;background-image:  repeating-linear-gradient(45deg, #edffe1 25%, transparent 25%, transparent 75%, #edffe1 75%, #edffe1), repeating-linear-gradient(45deg, #edffe1 25%, #ffffff 25%, #ffffff 75%, #edffe1 75%, #edffe1);
+        background-position: 0 0, 40px 40px;background-size: 80px 80px;}
+        #mainContainer {max-width: 700px; margin-left: auto; margin-right: auto;background-color:transparent;}
+        #btn {border: 2px solid #3ed6e500; margin-left: auto; margin-right: auto;background-color:#3ed6e500;border-radius: 5px;
+           :hover{color: #92ccd8; } }
+        '''
+    with gr.Blocks(css=css) as app:
+        with gr.Row(elem_id="main"):
             with gr.Column():
                 gr.Markdown("测试用")
                                 info="使用huggingface的免费CPU进行推理，因此速度不快，一次性不要输入超过500汉字")
                 model = gr.Radio(choices=list(models.keys()), value=list(models.keys())[0], label='音声模型')
                 #model = gr.Dropdown(choices=models,value=models[0], label='音声模型')
+                #speaker = gr.Radio(choices=speakers, value=speakers[0], label='Speaker')
+                gr.Markdown(value="生成参数")
                 sdp_ratio = gr.Slider(minimum=0, maximum=1, value=0.2, step=0.01, label='语调变化')
                 noise_scale = gr.Slider(minimum=0.1, maximum=1.5, value=0.5, step=0.01, label='感情变化')
                 noise_scale_w = gr.Slider(minimum=0.1, maximum=1.4, value=0.9, step=0.01, label='音节长度')
                 """)
         btn.click(
                 tts_generator,
+                inputs=[text, sdp_ratio, noise_scale, noise_scale_w, length_scale, model],
                 outputs=[text_output, audio_output,MP3_output]
                 )