Spaces:

intelli-zen
/

audio_edit

Running

App Files Files Community

HoneyTian commited on Feb 17

Commit

17263d1

1 Parent(s): 846c06f

update

Browse files

Files changed (8) hide show

examples/batch_audio_fmt_convert.py +6 -2
examples/clone/voice_clone.py +58 -0
examples/concat/batch_concat_three_and_adapt_volume.py +54 -0
examples/concat/concat_three_and_adapt_volume.py +85 -0
examples/concat/test1.py +0 -48
examples/concat/test2.py +0 -51
main.py +2 -2
toolbox/audio_edit/convert.py +4 -0

examples/batch_audio_fmt_convert.py CHANGED Viewed

@@ -5,6 +5,8 @@ import argparse
 import librosa
 import numpy as np
 from pathlib import Path
 from scipy.io import wavfile
 from tqdm import tqdm
@@ -15,12 +17,14 @@ def get_args():
     parser = argparse.ArgumentParser()
     parser.add_argument(
         "--audio_dir",
-        default=(project_path / "data/yd").as_posix(),
         type=str,
     )
     parser.add_argument(
         "--output_dir",
-        default=(project_path / "data/temp_wav").as_posix(),
         type=str,
     )
     args = parser.parse_args()

 import librosa
 import numpy as np
 from pathlib import Path
+from fsspec.registry import default
 from scipy.io import wavfile
 from tqdm import tqdm
     parser = argparse.ArgumentParser()
     parser.add_argument(
         "--audio_dir",
+        # default=(project_path / "data/yd").as_posix(),
+        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾",
         type=str,
     )
     parser.add_argument(
         "--output_dir",
+        # default=(project_path / "data/temp_wav").as_posix(),
+        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾",
         type=str,
     )
     args = parser.parse_args()

examples/clone/voice_clone.py ADDED Viewed

	@@ -0,0 +1,58 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import shutil
+from gradio_client import Client, handle_file
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--text",
+        default="吴家豪",
+        type=str,
+    )
+    parser.add_argument(
+        "--reference",
+        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾\Chinese_3.wav",
+        type=str,
+    )
+    parser.add_argument(
+        "--output_file",
+        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾\xtts_v2_chinese_2.wav",
+        type=str,
+    )
+    args = parser.parse_args()
+    return args
+def main():
+    args = get_args()
+    client = Client("https://coqui-xtts.hf.space/--replicas/fib73/")
+    _, synthesised_audio, _, _ = client.predict(
+        args.text,
+        # "en",
+        # "es",
+        # "ja",
+        # "pt",
+        # "ko",
+        # "ar",
+        "zh-cn",
+        args.reference,
+        args.reference,
+        False, False, True, True,
+        fn_index=1
+    )
+    shutil.move(
+        synthesised_audio,
+        args.output_file
+    )
+    return
+if __name__ == '__main__':
+    main()

examples/concat/batch_concat_three_and_adapt_volume.py ADDED Viewed

	@@ -0,0 +1,54 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+from gradio_client import Client, handle_file
+import numpy as np
+from scipy.io import wavfile
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename1",
+        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\英语\English_1.wav",
+        type=str,
+    )
+    parser.add_argument(
+        "--filename2",
+        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\英语\xtts_v2_english_2.wav",
+        type=str,
+    )
+    parser.add_argument(
+        "--filename3",
+        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\英语\English_3.wav",
+        type=str,
+    )
+    args = parser.parse_args()
+    return args
+def main():
+    args = get_args()
+    client = Client("http://10.75.27.247:7861/")
+    new_filename2, _ = client.predict(
+        audio_t=handle_file(args.filename2),
+        radio=1,
+        decibel=0,
+        reference=handle_file(args.filename3),
+        engine="by_ffmpy_by_db",
+        api_name="/when_click_change_volume"
+    )
+    _, signal1 = wavfile.read(args.filename1)
+    _, signal2 = wavfile.read(new_filename2)
+    _, signal3 = wavfile.read(args.filename3)
+    signal = np.concat([signal1, signal2, signal3], axis=0)
+    print(signal.shape)
+    return
+if __name__ == '__main__':
+    main()

examples/concat/concat_three_and_adapt_volume.py ADDED Viewed

	@@ -0,0 +1,85 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import shutil
+from gradio_client import Client, handle_file
+import numpy as np
+from scipy.io import wavfile
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename1",
+        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾\Chinese_1.wav",
+        type=str,
+    )
+    parser.add_argument(
+        "--filename2",
+        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾\xtts_v2_chinese_2.wav",
+        type=str,
+    )
+    parser.add_argument(
+        "--filename3",
+        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾\Chinese_3.wav",
+        type=str,
+    )
+    parser.add_argument(
+        "--output_adapt_file",
+        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾\xtts_v2_chinese_2_volume_adapt.wav",
+        type=str,
+    )
+    parser.add_argument(
+        "--output_concat_file",
+        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾\xtts_v2_chinese_2_concat.wav",
+        type=str,
+    )
+    args = parser.parse_args()
+    return args
+def main():
+    args = get_args()
+    # client = Client("http://10.75.27.247:7861/")
+    client = Client("http://127.0.0.1:7861/")
+    new_filename2, _ = client.predict(
+        audio_t=handle_file(args.filename2),
+        radio=1,
+        decibel=0,
+        reference=handle_file(args.filename3),
+        engine="by_pydub_by_reference",
+        api_name="/when_click_change_volume"
+    )
+    new_filename2, _, _, _ = client.predict(
+        audio_t=handle_file(new_filename2),
+        to_sample_rate=8000,
+        sample_width=2,
+        channels="0",
+        engine="librosa",
+        api_name="/when_click_audio_convert"
+    )
+    _, signal1 = wavfile.read(args.filename1)
+    _, signal2 = wavfile.read(new_filename2)
+    _, signal3 = wavfile.read(args.filename3)
+    signal = np.concat([signal1, signal2, signal3], axis=0)
+    shutil.move(
+        new_filename2,
+        args.output_adapt_file
+    )
+    wavfile.write(
+        args.output_concat_file,
+        8000,
+        signal,
+    )
+    return
+if __name__ == '__main__':
+    main()

examples/concat/test1.py DELETED Viewed

@@ -1,48 +0,0 @@
-#!/usr/bin/python3
-# -*- coding: utf-8 -*-
-import argparse
-import os
-from ffmpy import FFmpeg
-def get_args():
-    parser = argparse.ArgumentParser()
-    parser.add_argument("--change_by_db", default=-11, type=int)
-    args = parser.parse_args()
-    return args
-def change_by_decibel(audio_path: str, output_file: str, decibel):
-    ext = os.path.basename(audio_path).strip().split(".")[-1]
-    if ext not in ["wav", "mp3"]:
-        raise Exception("format error")
-    if os.path.exists(output_file):
-        os.remove(output_file)
-    ff = FFmpeg(
-        inputs={audio_path: None},
-        outputs={output_file: f'-filter:a "volume={decibel}dB"'}
-    )
-    ff.run()
-    return output_file
-def main():
-    args = get_args()
-    for i in range(10):
-        filename = r"C:\Users\tianx\Desktop\Audio\open_voice_v2\audio_{}_3_clone_from_audio_0_2.wav".format(i)
-        output_file = r"C:\Users\tianx\Desktop\Audio\open_voice_v2\audio_{}_3_clone_from_audio_0_2_volume.wav".format(i)
-        output_file = change_by_decibel(
-            filename,
-            output_file,
-            args.change_by_db,
-        )
-        # print(f"output_file: {output_file}")
-    return
-if __name__ == "__main__":
-    main()

examples/concat/test2.py DELETED Viewed

@@ -1,51 +0,0 @@
-#!/usr/bin/python3
-# -*- coding: utf-8 -*-
-import librosa
-import numpy as np
-from scipy.io import wavfile
-for i in range(10):
-    filename1 = r"C:\Users\tianx\Desktop\Audio\x_tts_v2\audio_0_section_1.wav"
-    filename2 = r"C:\Users\tianx\Desktop\Audio\open_voice_v2\audio_{}_3_clone_from_audio_0_2_volume.wav".format(i)
-    filename3 = r"C:\Users\tianx\Desktop\Audio\x_tts_v2\audio_0_section_2.wav"
-    output_filename = r"C:\Users\tianx\Desktop\Audio\open_voice_v2\audio_{}_3_clone_from_audio_0_2_concat_volume.wav".format(i)
-    signal1, sample_rate = librosa.load(filename1, sr=8000)
-    print(sample_rate)
-    print(signal1.dtype)
-    print(signal1.shape)
-    signal2, sample_rate = librosa.load(filename2, sr=8000)
-    print(sample_rate)
-    print(signal2.dtype)
-    print(signal2.shape)
-    signal3, sample_rate = librosa.load(filename3, sr=8000)
-    print(sample_rate)
-    print(signal3.dtype)
-    print(signal3.shape)
-    signal = np.concatenate([signal1, signal2, signal3], dtype=np.float32)
-    print(signal.dtype)
-    print(signal.shape)
-    max_wave_value = 32768.0
-    signal *= max_wave_value
-    signal = np.array(signal, dtype=np.int16)
-    print(signal.dtype)
-    print(sample_rate)
-    wavfile.write(
-        output_filename,
-        8000,
-        signal,
-    )
-if __name__ == '__main__':
-    pass

main.py CHANGED Viewed

@@ -1,14 +1,14 @@
 #!/usr/bin/python3
 # -*- coding: utf-8 -*-
 """
-docker build -t audio_edit:v20250109_1615 .
 docker run -itd \
 --name audio_edit_7861 \
 --restart=always \
 --network host \
 -e port=7861 \
-audio_edit:v20250109_1615
 """
 import argparse
 import json

 #!/usr/bin/python3
 # -*- coding: utf-8 -*-
 """
+docker build -t audio_edit:v20250116_1917 .
 docker run -itd \
 --name audio_edit_7861 \
 --restart=always \
 --network host \
 -e port=7861 \
+audio_edit:v20250116_1917
 """
 import argparse
 import json

toolbox/audio_edit/convert.py CHANGED Viewed

@@ -55,6 +55,10 @@ def audio_convert_by_librosa(filename: str,
         signal = np.concatenate(signal_, axis=-1)
     if sample_width == 2:
         max_wave_value = 32768.0
         signal *= max_wave_value
         signal = np.array(signal, dtype=np.int16)

         signal = np.concatenate(signal_, axis=-1)
     if sample_width == 2:
+        scale = np.max([np.abs(np.max(signal)), np.abs(np.min(signal))])
+        if scale > 1:
+            signal /= scale
         max_wave_value = 32768.0
         signal *= max_wave_value
         signal = np.array(signal, dtype=np.int16)