# Fish Speech の紹介
Discord QQ Docker
!!! warning 私たちは、コードベースの違法な使用について一切の責任を負いません。お住まいの地域の DMCA(デジタルミレニアム著作権法)およびその他の関連法を参照してください。
このコードベースとモデルは、CC-BY-NC-SA-4.0 ライセンス下でリリースされています。

## 要件 - GPU メモリ: 4GB(推論用)、8GB(ファインチューニング用) - システム: Linux、Windows ## Windows セットアップ Window にて開発を行っている方へ: 本コードベースを実行するのに WSL2 または Docker を利用することができます。 あまり詳しくない人は、Linux 環境なしでコードベースを実行するために以下の手順に従ってください。(モデルコンパイル機能`torch.compile`を利用できます。):
  1. プロジェクトの圧縮ファイルをダウンロードし、展開
  2. install_env.batを開いて実行に必要な環境を整えます。
  3. ステップ2でUSE_MIRROR=previewの場合、オプション、コンパイルモデル環境を有効にするたに以下のステップを実行してください。:
    1. 以下のリンクからLLVMコンパイラをダウンロードします:
      • LLVM-17.0.6(オリジナルサイト)
      • LLVM-17.0.6(ミラーサイト)
      • LLVM-17.0.6-win64.exeをダウンロードした後、ダブルクリックしてインストールし、適当な場所にインストールしてください。必ずAdd Path to Current Userをチェックして環境変数に追加することです。
      • インストールが完了したことを確認してください。
    2. Microsoft Visual C++ 再頒布可能パッケージをダウンロードしてインストールし、dllの欠落問題を解決します。
    3. Visual Studio Community Editionをダウンロードしてインストールし、MSVC++ビルドツールを取得し、LLVMのヘッダーファイル依存関係を解決します。
      • Visual Studio ダウンロード
      • Visual Studio Installerをインストールした後、Visual Studio Community 2022をダウンロードします。
      • 以下のスクリーンショットのようにModifyボタンをクリックし、Desktop development with C++オプションにチェックをつけてダウンロードします。
    4. インストール CUDA Toolkit 12
  4. start.batを実行し、Fish-Speechのトレーニング/推論設定WebUIを開いてください。。
  5. (オプション)run_cmd.batをダブルクリックして、このプロジェクトの仮想環境を有効化できます。
## Linux セットアップ ```bash # python 3.10の仮想環境を作成します。virtualenvも使用できます。 conda create -n fish-speech python=3.10 conda activate fish-speech # pytorchをインストールします。 pip3 install torch torchvision torchaudio # fish-speechをインストールします。 pip3 install -e .[stable] # (Ubuntu / Debianユーザー) soxをインストールします。 apt install libsox-dev ``` ## 変更履歴 - 2024/07/02: Fish-Speech を Ver.1.2 に更新し、VITS デコーダーを削除し、ゼロショット能力を大幅に強化しました。 - 2024/05/10: Fish-Speech を Ver.1.1 に更新し、VITS デコーダーを実装して WER を減少させ、音色の類似性を向上させました。 - 2024/04/22: Fish-Speech Ver.1.0 を完成させ、VQGAN および LLAMA モデルを大幅に修正しました。 - 2023/12/28: `lora`微調整サポートを追加しました。 - 2023/12/27: `gradient checkpointing`、`causual sampling`、および`flash-attn`サポートを追加しました。 - 2023/12/19: webui および HTTP API を更新しました。 - 2023/12/18: 微調整ドキュメントおよび関連例を更新しました。 - 2023/12/17: `text2semantic`モデルを更新し、自由音素モードをサポートしました。 - 2023/12/13: ベータ版をリリースし、VQGAN モデルおよび LLAMA に基づく言語モデル(音素のみサポート)を含みます。 ## 謝辞 - [VITS2 (daniilrobnikov)](https://github.com/daniilrobnikov/vits2) - [Bert-VITS2](https://github.com/fishaudio/Bert-VITS2) - [GPT VITS](https://github.com/innnky/gpt-vits) - [MQTTS](https://github.com/b04901014/MQTTS) - [GPT Fast](https://github.com/pytorch-labs/gpt-fast) - [Transformers](https://github.com/huggingface/transformers) - [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS)