sarpba/F5-TTS-Hun · Hugging Face

2025.03.26.

Már feltöltve a legújabb modellverzió sarpba/F5-TTS_V1_hun

2025.01.27. v5 modell egy tisztított hangadatbázisra építve újra finomhangoltam a modellt..

V5 teszt: Petőfi Sándor: Anyám tyúkja

Az alap minta amivel generáltam, mint látszik, nem magyar nyelvű (Word of Warcraft - Male Orc): ref_text (fonetikusan megadva): "fókosz sztratedzsi vájlensz"

V5+ teszt: Petőfi Sándor: A puszta, télen

Update: v4 és v5 esetében szükséges használni a hozzájuk tartozó vocab filet is, anélkül csak haladzsát kapsz...

Írtam egy kis scriptet, amivel könyebb futtatni a finetuningolt egyedi vocab fileal rendelkező modelleket. A script tömeges filefeldolgozásra készült és tartalmaz egy normalizáló réteget ami kijavítja a modell hibáinak egy jó részét a bemeneti szöveg igazításával. Kimondja a számokat, kicseréli az előzetesen a csv fileokban megadott szavakat a fonetikus változatára. https://github.com/sarpba/F5-TTS_scripts

Tippek a használathoz:

A referencia hang maximum 15 sec legyen, inkább rövidebb, de semmiképp sem hoszabb. A hoszabb referencia hang torzulásokat okoz a generálás közben. Már pár másodperc is elegendő, hogy a modell felvegye a referencia hangtónusát. A hoszabb hang a beszéd ritmkájának az átvételében segít.
A "berregő" hangok elkerülése végett a referencia audió elején legyen 0,5-1 sec közti csendes szakasz.
Ha az első szót/szavakat nem ejti ki a modell akkor próbáj meg a gen_text elejére "..." tenni
ha hoszab szünetet akasz a generált szövegben, többnyire egy "," vagy "..." segít kialakítani a hoszabb csendes szakaszt

Jelenleg az alábbi módon működik(2025-03-21): Ha van korábbi telepített anakonda környezetetd akkor töröld az anaconda3/envs/f5-tts mappát elötte

conda create -n f5-tts python=3.10
conda activate f5-tts
pip install torch==2.6.0+cu124 torchaudio==2.6.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124
pip install f5-tts

a garadio felölet indítása

f5-tts_infer_gradio

costom modell:

hf://sarpba/F5-TTS-Hun/hun_v5/model_250000_quant.pt

hf://sarpba/F5-TTS-Hun/hun_v5/vocab.txt

Az F5-TTs_v1 angol finomgangolása hamarosan érkezik, kb még 1-1.5 hét.

sarpba
/

F5-TTS-Hun

You need to agree to share your contact information to access this model

Model tree for sarpba/F5-TTS-Hun

Collection including sarpba/F5-TTS-Hun

Magyar F5-TTS