Spaces:

TTS-AGI
/

Voice-Clone-Arena

Running

App Files Files Community

kemuriririn commited on Jun 4

Commit

4172058

1 Parent(s): 577fef3

(wip)debug

Browse files

Files changed (2) hide show

models.py +9 -1
tts.py +54 -3

models.py CHANGED Viewed

@@ -438,9 +438,17 @@ def insert_initial_models():
             name="Spark TTS",
             model_type=ModelType.TTS,
             is_open=False,
-            is_active=True, # API stopped working
             model_url="https://github.com/SparkAudio/Spark-TTS",
         ),
         # Model(
         #     id="playht-2.0",
         #     name="PlayHT 2.0",

             name="Spark TTS",
             model_type=ModelType.TTS,
             is_open=False,
+            is_active=False, # API stopped working
             model_url="https://github.com/SparkAudio/Spark-TTS",
         ),
+        Model(
+            id="maskgct",
+            name="maskgct",
+            model_type=ModelType.TTS,
+            is_open=False,
+            is_active=True,
+            model_url="https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct",
+        ),
         # Model(
         #     id="playht-2.0",
         #     name="PlayHT 2.0",

tts.py CHANGED Viewed

@@ -85,6 +85,14 @@ model_mapping = {
         "provider": "bilibili",
         "model": "index-tts",
     },
 }
 url = "https://tts-agi-tts-router-v2.hf.space/tts"
 headers = {
@@ -230,15 +238,22 @@ def predict_spark_tts(text, reference_audio_path=None):
 def predict_cosyvoice_tts(text, reference_audio_path=None):
-    from gradio_client import Client, file
     client = Client("https://iic-cosyvoice2-0-5b.ms.show/")
     if not reference_audio_path:
         raise ValueError("cosyvoice-2.0 需要 reference_audio_path")
     prompt_wav = handle_file(reference_audio_path)
     result = client.predict(
         tts_text=text,
         mode_checkbox_group="3s极速复刻",
-        prompt_text="",
         prompt_wav_upload=prompt_wav,
         prompt_wav_record=prompt_wav,
         instruct_text="",
@@ -246,7 +261,39 @@ def predict_cosyvoice_tts(text, reference_audio_path=None):
         api_name="/generate_audio"
     )
     print("cosyvoice-2.0 result:", result)
     return result
@@ -266,6 +313,10 @@ def predict_tts(text, model, reference_audio_path=None):
         return predict_spark_tts(text, reference_audio_path)
     elif model == "cosyvoice-2.0":
         return predict_cosyvoice_tts(text, reference_audio_path)
     if not model in model_mapping:
         raise ValueError(f"Model {model} not found")
@@ -276,7 +327,7 @@ def predict_tts(text, model, reference_audio_path=None):
         "provider": model_mapping[model]["provider"],
         "model": model_mapping[model]["model"],
     }
-    # 仅对支持音色克隆的模型传递参考音色
     supports_reference = model in [
         "styletts2", "eleven-multilingual-v2", "eleven-turbo-v2.5", "eleven-flash-v2.5"
     ]

         "provider": "bilibili",
         "model": "index-tts",
     },
+    "step-audio-tts-3b": {
+        "provider": "swarmeta_ai",
+        "model": "step-audio-tts-3b",
+    },
+    "maskgct": {
+        "provider": "amphion",
+        "model": "maskgct",
+    },
 }
 url = "https://tts-agi-tts-router-v2.hf.space/tts"
 headers = {
 def predict_cosyvoice_tts(text, reference_audio_path=None):
+    from gradio_client import Client, file, handle_file
     client = Client("https://iic-cosyvoice2-0-5b.ms.show/")
     if not reference_audio_path:
         raise ValueError("cosyvoice-2.0 需要 reference_audio_path")
     prompt_wav = handle_file(reference_audio_path)
+    # 先识别参考音频文本
+    recog_result = client.predict(
+        prompt_wav=file(reference_audio_path),
+        api_name="/prompt_wav_recognition"
+    )
+    print("cosyvoice-2.0 prompt_wav_recognition result:", recog_result)
+    prompt_text = recog_result if isinstance(recog_result, str) else str(recog_result)
     result = client.predict(
         tts_text=text,
         mode_checkbox_group="3s极速复刻",
+        prompt_text=prompt_text,
         prompt_wav_upload=prompt_wav,
         prompt_wav_record=prompt_wav,
         instruct_text="",
         api_name="/generate_audio"
     )
     print("cosyvoice-2.0 result:", result)
+    return result
+def predict_step_audio_tts_3b(text, reference_audio_path=None):
+    from gradio_client import Client, handle_file,file
+    client = Client("https://swarmeta-ai-step-audio-tts-3b.ms.show/")
+    if not reference_audio_path:
+        raise ValueError("step-audio-tts-3b 需要 reference_audio_path")
+    prompt_audio = handle_file(reference_audio_path)
+    result = client.predict(
+        text=text,
+        prompt_audio=file(reference_audio_path),
+        prompt_text="",
+        api_name="/generate_clone"
+    )
+    print("step-audio-tts-3b result:", result)
+    return result
+def predict_maskgct(text, reference_audio_path=None):
+    from gradio_client import Client, handle_file
+    client = Client("https://s5k.cn/api/v1/studio/amphion/maskgct/gradio/")
+    if not reference_audio_path:
+        raise ValueError("maskgct 需要 reference_audio_path")
+    prompt_wav = handle_file(reference_audio_path)
+    result = client.predict(
+        prompt_wav=prompt_wav,
+        target_text=text,
+        target_len=-1,
+        n_timesteps=25,
+        api_name="/predict"
+    )
+    print("maskgct result:", result)
     return result
         return predict_spark_tts(text, reference_audio_path)
     elif model == "cosyvoice-2.0":
         return predict_cosyvoice_tts(text, reference_audio_path)
+    elif model == "step-audio-tts-3b":
+        return predict_step_audio_tts_3b(text, reference_audio_path)
+    elif model == "maskgct":
+        return predict_maskgct(text, reference_audio_path)
     if not model in model_mapping:
         raise ValueError(f"Model {model} not found")
         "provider": model_mapping[model]["provider"],
         "model": model_mapping[model]["model"],
     }
+    # 仅支持音色克隆的模型传递参考音色
     supports_reference = model in [
         "styletts2", "eleven-multilingual-v2", "eleven-turbo-v2.5", "eleven-flash-v2.5"
     ]