Spaces:

intelli-zen
/

audio_edit

Running

App Files Files Community

HoneyTian commited on 13 days ago

Commit

ba051ef

1 Parent(s): 17263d1

update

Browse files

Files changed (8) hide show

.gitignore +1 -0
Dockerfile +3 -1
examples/batch_audio_fmt_convert.py +2 -2
examples/clone/voice_clone.py +26 -6
examples/concat/concat_three_and_adapt_volume.py +21 -5
install.sh +62 -0
main.py +15 -0
toolbox/audio_edit/reverb.py +63 -3

.gitignore CHANGED Viewed

@@ -3,6 +3,7 @@
 .idea/
 #/data/
 /dotenv/
 /logs/
 /trained_models

 .idea/
 #/data/
+/data/impulse_responses
 /dotenv/
 /logs/
 /trained_models

Dockerfile CHANGED Viewed

@@ -5,11 +5,13 @@ WORKDIR /code
 COPY . /code
 RUN apt-get update
-RUN apt-get install -y ffmpeg build-essential
 RUN pip install --upgrade pip
 RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
 RUN useradd -m -u 1000 user
 USER user

 COPY . /code
 RUN apt-get update
+RUN apt-get install -y wget ffmpeg build-essential
 RUN pip install --upgrade pip
 RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
+RUN bash install.sh --stage 1 --stop_stage 1 --system_version ubuntu
 RUN useradd -m -u 1000 user
 USER user

examples/batch_audio_fmt_convert.py CHANGED Viewed

@@ -18,13 +18,13 @@ def get_args():
     parser.add_argument(
         "--audio_dir",
         # default=(project_path / "data/yd").as_posix(),
-        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾",
         type=str,
     )
     parser.add_argument(
         "--output_dir",
         # default=(project_path / "data/temp_wav").as_posix(),
-        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾",
         type=str,
     )
     args = parser.parse_args()

     parser.add_argument(
         "--audio_dir",
         # default=(project_path / "data/yd").as_posix(),
+        default=r"E:\牛信文档\语音克隆\多语种语音克隆\money_char",
         type=str,
     )
     parser.add_argument(
         "--output_dir",
         # default=(project_path / "data/temp_wav").as_posix(),
+        default=r"E:\牛信文档\语音克隆\多语种语音克隆\money_char",
         type=str,
     )
     args = parser.parse_args()

examples/clone/voice_clone.py CHANGED Viewed

@@ -6,21 +6,41 @@ import shutil
 from gradio_client import Client, handle_file
 def get_args():
     parser = argparse.ArgumentParser()
     parser.add_argument(
         "--text",
-        default="吴家豪",
         type=str,
     )
     parser.add_argument(
         "--reference",
-        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾\Chinese_3.wav",
         type=str,
     )
     parser.add_argument(
         "--output_file",
-        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾\xtts_v2_chinese_2.wav",
         type=str,
     )
     args = parser.parse_args()
@@ -30,17 +50,17 @@ def get_args():
 def main():
     args = get_args()
-    client = Client("https://coqui-xtts.hf.space/--replicas/fib73/")
     _, synthesised_audio, _, _ = client.predict(
         args.text,
         # "en",
         # "es",
-        # "ja",
         # "pt",
         # "ko",
         # "ar",
-        "zh-cn",
         args.reference,
         args.reference,
         False, False, True, True,

 from gradio_client import Client, handle_file
+# language1 = "英语"
+# language2 = "English"
+# language1 = "西班牙语"
+# language2 = "Spanish"
+language1 = "日语"
+language2 = "Japanese"
+# language1 = "葡萄牙语"
+# language2 = "Portuguese"
+# language1 = "韩语"
+# language2 = "Korean"
+# language1 = "阿拉伯语"
+# language2 = "Arabic"
+# language1 = "中国台湾"
+# language2 = "Chinese"
 def get_args():
     parser = argparse.ArgumentParser()
     parser.add_argument(
         "--text",
+        # default="thirty-three dollars and seventy-two cents",
+        # default="treinta y tres euros con setenta y dos céntimos",
+        default="33.72円",
+        # default="33.72 درهم",
+        # default="三十三元七角两分",
         type=str,
     )
     parser.add_argument(
         "--reference",
+        default=rf"E:\牛信文档\语音克隆\多语种语音克隆\money_num\{language1}\{language2}_1.wav",
         type=str,
     )
     parser.add_argument(
         "--output_file",
+        default=rf"E:\牛信文档\语音克隆\多语种语音克隆\money_num\{language1}\xtts_v2_{language2.lower()}_2.wav",
         type=str,
     )
     args = parser.parse_args()
 def main():
     args = get_args()
+    client = Client("https://coqui-xtts.hf.space/--replicas/o7bhl/")
     _, synthesised_audio, _, _ = client.predict(
         args.text,
         # "en",
         # "es",
+        "ja",
         # "pt",
         # "ko",
         # "ar",
+        # "zh-cn",
         args.reference,
         args.reference,
         False, False, True, True,

examples/concat/concat_three_and_adapt_volume.py CHANGED Viewed

@@ -8,31 +8,47 @@ import numpy as np
 from scipy.io import wavfile
 def get_args():
     parser = argparse.ArgumentParser()
     parser.add_argument(
         "--filename1",
-        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾\Chinese_1.wav",
         type=str,
     )
     parser.add_argument(
         "--filename2",
-        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾\xtts_v2_chinese_2.wav",
         type=str,
     )
     parser.add_argument(
         "--filename3",
-        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾\Chinese_3.wav",
         type=str,
     )
     parser.add_argument(
         "--output_adapt_file",
-        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾\xtts_v2_chinese_2_volume_adapt.wav",
         type=str,
     )
     parser.add_argument(
         "--output_concat_file",
-        default=r"E:\牛信文档\语音克隆\多语种语音克隆\voice\中国台湾\xtts_v2_chinese_2_concat.wav",
         type=str,
     )
     args = parser.parse_args()

 from scipy.io import wavfile
+# language1 = "英语"
+# language2 = "English"
+# language1 = "西班牙语"
+# language2 = "Spanish"
+language1 = "日语"
+language2 = "Japanese"
+# language1 = "葡萄牙语"
+# language2 = "Portuguese"
+# language1 = "韩语"
+# language2 = "Korean"
+# language1 = "阿拉伯语"
+# language2 = "Arabic"
+# language1 = "中国台湾"
+# language2 = "Chinese"
 def get_args():
     parser = argparse.ArgumentParser()
     parser.add_argument(
         "--filename1",
+        default=rf"E:\牛信文档\语音克隆\多语种语音克隆\money_num\{language1}\{language2}_1.wav",
         type=str,
     )
     parser.add_argument(
         "--filename2",
+        default=rf"E:\牛信文档\语音克隆\多语种语音克隆\money_num\{language1}\xtts_v2_{language2.lower()}_2.wav",
         type=str,
     )
     parser.add_argument(
         "--filename3",
+        default=rf"E:\牛信文档\语音克隆\多语种语音克隆\money_num\{language1}\{language2}_3.wav",
         type=str,
     )
     parser.add_argument(
         "--output_adapt_file",
+        default=rf"E:\牛信文档\语音克隆\多语种语音克隆\money_num\{language1}\xtts_v2_{language2.lower()}_2_volume_adapt.wav",
         type=str,
     )
     parser.add_argument(
         "--output_concat_file",
+        default=rf"E:\牛信文档\语音克隆\多语种语音克隆\money_num\{language1}\xtts_v2_{language2.lower()}_2_concat.wav",
         type=str,
     )
     args = parser.parse_args()

install.sh ADDED Viewed

	@@ -0,0 +1,62 @@

+#!/usr/bin/env bash
+# bash install.sh --stage 1 --stop_stage 1 --system_version windows
+system_version="centos";
+verbose=true;
+stage=-1
+stop_stage=0
+# parse options
+while true; do
+  [ -z "${1:-}" ] && break;  # break if there are no arguments
+  case "$1" in
+    --*) name=$(echo "$1" | sed s/^--// | sed s/-/_/g);
+      eval '[ -z "${'"$name"'+xxx}" ]' && echo "$0: invalid option $1" 1>&2 && exit 1;
+      old_value="(eval echo \\$$name)";
+      if [ "${old_value}" == "true" ] || [ "${old_value}" == "false" ]; then
+        was_bool=true;
+      else
+        was_bool=false;
+      fi
+      # Set the variable to the right value-- the escaped quotes make it work if
+      # the option had spaces, like --cmd "queue.pl -sync y"
+      eval "${name}=\"$2\"";
+      # Check that Boolean-valued arguments are really Boolean.
+      if $was_bool && [[ "$2" != "true" && "$2" != "false" ]]; then
+        echo "$0: expected \"true\" or \"false\": $1 $2" 1>&2
+        exit 1;
+      fi
+      shift 2;
+      ;;
+    *) break;
+  esac
+done
+work_dir="$(pwd)"
+data_dir="${work_dir}/data/impulse_responses"
+mkdir -p "${data_dir}"
+if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
+  $verbose && echo "stage 1: download simulated room impulse responses"
+  cd "${data_dir}" || exit 1;
+  # https://www.openslr.org/26/
+  wget https://www.openslr.org/resources/26/sim_rir_8k.zip
+  wget https://www.openslr.org/resources/26/sim_rir_16k.zip
+  unzip sim_rir_8k.zip
+  unzip sim_rir_16k.zip
+  # https://www.openslr.org/28/
+  wget https://www.openslr.org/resources/28/rirs_noises.zip
+  unzip rirs_noises.zip
+fi

main.py CHANGED Viewed

@@ -29,6 +29,7 @@ from toolbox.audio_edit.speech_speed import change_speech_speed, engine_to_funct
 from toolbox.audio_edit.volume import change_volume, engine_to_function as volume_engine_to_function
 from toolbox.audio_edit.augment import mix_speech_and_noise
 from toolbox.audio_edit.reverb import reverb, engine_to_function as reverb_engine_to_function
 def get_args():
@@ -42,6 +43,10 @@ def get_args():
     return args
 def save_input_audio(sample_rate: int, signal: np.ndarray) -> str:
     temp_audio_dir = Path(tempfile.gettempdir()) / "input_audio"
@@ -548,6 +553,16 @@ def main():
                         mix_output_audio, mix_log
                     ],
                 )
     # http://127.0.0.1:7861/
     # http://10.75.27.247:7861/

 from toolbox.audio_edit.volume import change_volume, engine_to_function as volume_engine_to_function
 from toolbox.audio_edit.augment import mix_speech_and_noise
 from toolbox.audio_edit.reverb import reverb, engine_to_function as reverb_engine_to_function
+from toolbox.os.command import Command
 def get_args():
     return args
+def shell(cmd: str):
+    return Command.popen(cmd)
 def save_input_audio(sample_rate: int, signal: np.ndarray) -> str:
     temp_audio_dir = Path(tempfile.gettempdir()) / "input_audio"
                         mix_output_audio, mix_log
                     ],
                 )
+            with gr.TabItem("shell"):
+                shell_text = gr.Textbox(label="cmd")
+                shell_button = gr.Button("run")
+                shell_output = gr.Textbox(label="output")
+                shell_button.click(
+                    shell,
+                    inputs=[shell_text,],
+                    outputs=[shell_output],
+                )
     # http://127.0.0.1:7861/
     # http://10.75.27.247:7861/

toolbox/audio_edit/reverb.py CHANGED Viewed

@@ -1,8 +1,13 @@
 #!/usr/bin/python3
 # -*- coding: utf-8 -*-
 import json
 from typing import List, Tuple
 import numpy as np
 import pedalboard
 import pyroomacoustics as pra
@@ -15,8 +20,9 @@ def reverb_by_pedalboard(signal: np.ndarray,
                          width: float = 1.0,
                          dry_level: float = 0.4,
                          wet_level: float = 0.6,
-                         freeze_mode: bool = False
-                         ):
     board = pedalboard.Pedalboard([
         pedalboard.Reverb(
@@ -40,7 +46,8 @@ def reverb_by_pyroomacoustics(signal: np.ndarray,
                               source_position: Tuple[float, float] = (2.5, 4.5),
                               microphone_array: List[Tuple[float, float]] = None,
                               output_microphone_idx: int = 0,
-                              ):
     # signal: float32, (-1, 1)
     if microphone_array is None:
         microphone_array = [[1.5, 1.5], [2.5, 1.5]]
@@ -65,9 +72,62 @@ def reverb_by_pyroomacoustics(signal: np.ndarray,
     return reverberated_audio
 engine_to_function = {
     "pedalboard": reverb_by_pedalboard,
     "pyroomacoustics": reverb_by_pyroomacoustics,
 }

 #!/usr/bin/python3
 # -*- coding: utf-8 -*-
 import json
+import os.path
+import random
+from functools import lru_cache
+from pathlib import Path
 from typing import List, Tuple
+import librosa
 import numpy as np
 import pedalboard
 import pyroomacoustics as pra
                          width: float = 1.0,
                          dry_level: float = 0.4,
                          wet_level: float = 0.6,
+                         freeze_mode: bool = False,
+                         **kwargs,
+                         ) -> np.ndarray:
     board = pedalboard.Pedalboard([
         pedalboard.Reverb(
                               source_position: Tuple[float, float] = (2.5, 4.5),
                               microphone_array: List[Tuple[float, float]] = None,
                               output_microphone_idx: int = 0,
+                              **kwargs,
+                              ) -> np.ndarray:
     # signal: float32, (-1, 1)
     if microphone_array is None:
         microphone_array = [[1.5, 1.5], [2.5, 1.5]]
     return reverberated_audio
+def reverb_by_convolve(signal: np.ndarray,
+                       impulse_response: np.ndarray,
+                       ) -> np.ndarray:
+    reverberant_audio = np.convolve(signal, impulse_response, mode="full")
+    reverberant_audio = reverberant_audio[:len(signal)]
+    reverberant_audio = reverberant_audio * (np.max(np.abs(signal)) / np.max(np.abs(reverberant_audio)))
+    return reverberant_audio
+slr28_rir_path = r"E:\programmer\asr_datasets\dns-challenge\datasets.impulse_responses\datasets\impulse_responses\SLR28\RIRS_NOISES\simulated_rirs"
+slr28_rir_path = Path(slr28_rir_path)
+@lru_cache(maxsize=10)
+def get_slr28_rir_file_list():
+    global slr28_rir_path
+    rir_file_list = list()
+    for filename in slr28_rir_path.glob("**/*.wav"):
+        rir_file_list.append(filename)
+    return rir_file_list
+def get_rir_file(rir_file: str = None) -> str:
+    if rir_file is None:
+        rir_file_list = get_slr28_rir_file_list()
+        rir_file = random.sample(rir_file_list, 1)[0]
+    elif os.path.isfile(rir_file):
+        pass
+    else:
+        rir_file = slr28_rir_path / rir_file
+        rir_file = rir_file.as_posix()
+    return rir_file
+def reverb_by_slr28(signal: np.ndarray,
+                    sample_rate: int,
+                    rir_file: str = None,
+                    **kwargs,
+                    ):
+    rir_file = get_rir_file(rir_file)
+    impulse_response, _ = librosa.load(rir_file, mono=False, sr=sample_rate)
+    if impulse_response.ndim != 1:
+        raise AssertionError
+    reverberant_audio = reverb_by_convolve(signal, impulse_response)
+    return reverberant_audio
 engine_to_function = {
     "pedalboard": reverb_by_pedalboard,
     "pyroomacoustics": reverb_by_pyroomacoustics,
+    "slr28": reverb_by_slr28,
 }