formosan-f5-tts

Sleeping

App Files Files Community

txya900619 commited on 27 days ago

Commit

d476512

1 Parent(s): 787f71f

feat: enhance UI/UX and fix custom_speaker_ref_text_input empty bug

Browse files

Files changed (2) hide show

DEMO.md +3 -2
app.py +66 -24

DEMO.md CHANGED Viewed

@@ -3,5 +3,6 @@
 ILRDF Formosan Text-To-Speech System
 \
-本系統為初步開發成果的試用版本，仍處於**測試階段**。**合成結果可能在發音、語調或流暢度存在不盡理想之處，甚至可能出現錯誤**。
-我們誠摯邀請您試用本系統，並請務必謹慎**檢視合成結果**，切勿直接作為正式或關鍵資訊使用，感謝您的理解與支持。

 ILRDF Formosan Text-To-Speech System
 \
+這是「將文字轉換為聲音」的系統，請按照下方步驟操作，或查看操作手冊及操作影片。
+本系統為初步開發成果的測試版，**合成結果可能於拼寫、斷句處有不盡理想之處，甚至可能出現錯誤**。
+試用時請務必**謹慎檢視合成結果**，切勿直接作為正式或關鍵資訊使用，感謝您的理解與支持，並請不吝留下系統回報與建議。

app.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import tempfile
 from importlib.resources import files
@@ -123,6 +124,8 @@ examples_config = OmegaConf.to_object(OmegaConf.load("configs/examples.yaml"))
 DEFAULT_MODEL_ID = list(models_config.keys())[0]
 @gpu_decorator
 def infer(
@@ -219,19 +222,21 @@ with demo:
     with gr.Tab("預設配音員"):
         with gr.Row():
             with gr.Column():
-                default_speaker_language = gr.Dropdown(
-                    choices=g2p_object.keys(),
-                    label="步驟一：選擇語言",
-                    value="阿美_秀姑巒",
                 )
-                def get_refs_by_language(language: str):
-                    return [r for r in refs_config.keys() if r.startswith(language)]
                 default_speaker_refs = gr.Dropdown(
-                    choices=get_refs_by_language(default_speaker_language.value),
                     label="步驟二：選擇配音員",
-                    value=get_refs_by_language(default_speaker_language.value)[0],
                 )
                 default_speaker_gen_text_input = gr.Textbox(
@@ -244,26 +249,46 @@ with demo:
                 )
             with gr.Column():
-                default_speaker_audio_output = gr.Audio(label="合成結果")
     with gr.Tab("自己當配音員"):
         with gr.Row():
             with gr.Column():
                 custom_speaker_language = gr.Dropdown(
-                    choices=g2p_object.keys(),
-                    label="步驟一：選擇語言",
-                    value="阿美_秀姑巒",
                 )
                 custom_speaker_ref_text_input = gr.Textbox(
-                    value=refs_config.get(f"{custom_speaker_language.value}_1", {}).get(
-                        "text", ""
-                    ),
                     label="步驟二：點選🎙️錄製下方句子，或上傳與句子相符的音檔",
                 )
                 custom_speaker_audio_input = gr.Audio(
                     type="filepath",
                     waveform_options=gr.WaveformOptions(
                         sample_rate=24000,
                     ),
@@ -280,23 +305,25 @@ with demo:
                 )
             with gr.Column():
-                custom_speaker_audio_output = gr.Audio(label="合成結果")
-    default_speaker_language.change(
-        lambda lang: gr.Dropdown(
-            choices=get_refs_by_language(lang),
-            value=get_refs_by_language(lang)[0],
         ),
-        inputs=[default_speaker_language],
         outputs=[default_speaker_refs],
     )
     @gpu_decorator
     def default_speaker_tts(
-        language: str,
         ref: str,
         gen_text_input: str,
     ):
         ref_text_input = refs_config[ref]["text"]
         ref_audio_input = refs_config[ref]["wav"]
@@ -304,6 +331,9 @@ with demo:
         if len(gen_text_input) == 0:
             raise gr.Error("請勿輸入空字串。")
         ignore_punctuation = False
         ipa_with_ng = False
@@ -325,16 +355,25 @@ with demo:
     default_speaker_generate_btn.click(
         default_speaker_tts,
         inputs=[
-            default_speaker_language,
             default_speaker_refs,
             default_speaker_gen_text_input,
         ],
         outputs=[default_speaker_audio_output],
     )
     custom_speaker_language.change(
         lambda lang: gr.Textbox(
-            value=refs_config.get(f"{lang}_1", {}).get("text", ""),
         ),
         inputs=[custom_speaker_language],
         outputs=[custom_speaker_ref_text_input],
@@ -358,6 +397,9 @@ with demo:
         ignore_punctuation = False
         ipa_with_ng = False
         ref_text_input = text_to_ipa(
             ref_text_input, language, ignore_punctuation, ipa_with_ng
         )

+import re
 import tempfile
 from importlib.resources import files
 DEFAULT_MODEL_ID = list(models_config.keys())[0]
+ETHNICITIES = list(set([k.split("_")[0] for k in g2p_object.keys()]))
 @gpu_decorator
 def infer(
     with gr.Tab("預設配音員"):
         with gr.Row():
             with gr.Column():
+                default_speaker_ethnicity = gr.Dropdown(
+                    choices=ETHNICITIES,
+                    label="步驟一：選擇族別",
+                    value="阿美",
+                    filterable=False,
                 )
+                def get_refs_by_perfix(prefix: str):
+                    return [r for r in refs_config.keys() if r.startswith(prefix)]
                 default_speaker_refs = gr.Dropdown(
+                    choices=get_refs_by_perfix(default_speaker_ethnicity.value),
                     label="步驟二：選擇配音員",
+                    value=get_refs_by_perfix(default_speaker_ethnicity.value)[0],
+                    filterable=False,
                 )
                 default_speaker_gen_text_input = gr.Textbox(
                 )
             with gr.Column():
+                default_speaker_audio_output = gr.Audio(
+                    label="合成結果", show_share_button=False, show_download_button=True
+                )
     with gr.Tab("自己當配音員"):
         with gr.Row():
             with gr.Column():
+                custom_speaker_ethnicity = gr.Dropdown(
+                    choices=ETHNICITIES,
+                    label="步驟一：選擇族別與語別",
+                    value="阿美",
+                    filterable=False,
+                )
                 custom_speaker_language = gr.Dropdown(
+                    choices=[
+                        k
+                        for k in g2p_object.keys()
+                        if k.startswith(custom_speaker_ethnicity.value)
+                    ],
+                    value=[
+                        k
+                        for k in g2p_object.keys()
+                        if k.startswith(custom_speaker_ethnicity.value)
+                    ][0],
+                    filterable=False,
+                    show_label=False,
                 )
                 custom_speaker_ref_text_input = gr.Textbox(
+                    value=refs_config[
+                        get_refs_by_perfix(custom_speaker_language.value)[0]
+                    ]["text"],
+                    interactive=False,
                     label="步驟二：點選🎙️錄製下方句子，或上傳與句子相符的音檔",
                 )
                 custom_speaker_audio_input = gr.Audio(
                     type="filepath",
+                    sources=["microphone", "upload"],
                     waveform_options=gr.WaveformOptions(
                         sample_rate=24000,
                     ),
                 )
             with gr.Column():
+                custom_speaker_audio_output = gr.Audio(
+                    label="合成結果", show_share_button=False, show_download_button=True
+                )
+    default_speaker_ethnicity.change(
+        lambda ethnicity: gr.Dropdown(
+            choices=get_refs_by_perfix(ethnicity),
+            value=get_refs_by_perfix(ethnicity)[0],
         ),
+        inputs=[default_speaker_ethnicity],
         outputs=[default_speaker_refs],
     )
     @gpu_decorator
     def default_speaker_tts(
         ref: str,
         gen_text_input: str,
     ):
+        language = re.sub(r"_[男女]聲[12]", "", ref)
         ref_text_input = refs_config[ref]["text"]
         ref_audio_input = refs_config[ref]["wav"]
         if len(gen_text_input) == 0:
             raise gr.Error("請勿輸入空字串。")
+        if gen_text_input[-1] not in [".", "?", "!", ",", ";", ":"]:
+            gen_text_input += "."
         ignore_punctuation = False
         ipa_with_ng = False
     default_speaker_generate_btn.click(
         default_speaker_tts,
         inputs=[
             default_speaker_refs,
             default_speaker_gen_text_input,
         ],
         outputs=[default_speaker_audio_output],
     )
+    custom_speaker_ethnicity.change(
+        lambda ethnicity: gr.Dropdown(
+            choices=[k for k in g2p_object.keys() if k.startswith(ethnicity)],
+            value=[k for k in g2p_object.keys() if k.startswith(ethnicity)][0],
+            visible=len([k for k in g2p_object.keys() if k.startswith(ethnicity)]) > 1,
+        ),
+        inputs=[custom_speaker_ethnicity],
+        outputs=[custom_speaker_language],
+    )
     custom_speaker_language.change(
         lambda lang: gr.Textbox(
+            value=refs_config[get_refs_by_perfix(lang)[0]]["text"],
         ),
         inputs=[custom_speaker_language],
         outputs=[custom_speaker_ref_text_input],
         ignore_punctuation = False
         ipa_with_ng = False
+        if gen_text_input[-1] not in [".", "?", "!", ",", ";", ":"]:
+            gen_text_input += "."
         ref_text_input = text_to_ipa(
             ref_text_input, language, ignore_punctuation, ipa_with_ng
         )