Alissonerdx commited on
Commit
65ce320
·
verified ·
1 Parent(s): 14c43ff

Upload 37 files

Browse files
.gitattributes CHANGED
@@ -33,3 +33,17 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ samples/original_1.mp3 filter=lfs diff=lfs merge=lfs -text
37
+ samples/original_10.mp3 filter=lfs diff=lfs merge=lfs -text
38
+ samples/original_3.mp3 filter=lfs diff=lfs merge=lfs -text
39
+ samples/original_4.mp3 filter=lfs diff=lfs merge=lfs -text
40
+ samples/original_6.mp3 filter=lfs diff=lfs merge=lfs -text
41
+ samples/original_8.mp3 filter=lfs diff=lfs merge=lfs -text
42
+ samples/original_9.mp3 filter=lfs diff=lfs merge=lfs -text
43
+ samples/pt_full_10.mp3 filter=lfs diff=lfs merge=lfs -text
44
+ samples/pt_full_3.mp3 filter=lfs diff=lfs merge=lfs -text
45
+ samples/pt_full_8.mp3 filter=lfs diff=lfs merge=lfs -text
46
+ samples/pt_merged_1.flac filter=lfs diff=lfs merge=lfs -text
47
+ samples/pt_merged_3.mp3 filter=lfs diff=lfs merge=lfs -text
48
+ samples/pt_merged_8.mp3 filter=lfs diff=lfs merge=lfs -text
49
+ samples/pt_merged_9.mp3 filter=lfs diff=lfs merge=lfs -text
Dia1.6-Portuguese-v1-merged.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b35dc719e6fa431103bd957d517efad5bae1772824821e8a8d4e960147d8758f
3
+ size 6444761595
Dia1.6-Portuguese-v1-merged.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:91eeb95f6a7028d5e1450f13c1a708b811567fe566e271bd700a62d4ee745d60
3
+ size 6444682848
Dia1.6-Portuguese-v1.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7a3ae81a604d336dff89694303acb651d9abedd2a94eac74be42f364c32f6798
3
+ size 6406376057
Dia1.6-Portuguese-v1.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7d7a0f684e4b9178fece85952aa285f3e8dab9743f683d2c476b8b632d9db18e
3
+ size 6406262408
README.md CHANGED
@@ -61,12 +61,18 @@ This is a fine-tuned version of the [Dia 1.6B](https://huggingface.co/nari-labs/
61
 
62
  ## ▶️ Audio Samples
63
 
64
- | Prompt | v1 (PT only) | v1-merged (alpha 0.6) |
65
- |--------|--------------|------------------------|
66
- | `"Olá, como vai você?"` | 🔉 [Listen](path/to/pt_only.wav) | 🔉 [Listen](path/to/merged.wav) |
67
- | `"Isso é um teste de síntese de voz em português brasileiro."` | 🔉 [Listen](path/to/pt2.wav) | 🔉 [Listen](path/to/merged2.wav) |
68
-
69
- > *(Replace with actual hosted audio sample links)*
 
 
 
 
 
 
70
 
71
  ---
72
 
 
61
 
62
  ## ▶️ Audio Samples
63
 
64
+ | Prompt | Dia 1.6B (Original) | PT Fine-Tuned (v1) | PT Merged (alpha=0.6) |
65
+ |--------|----------------------|---------------------|------------------------|
66
+ | `[S1] Às vezes, tudo o que você precisa é respirar fundo e lembrar que nem tudo precisa ser resolvido hoje. A calma também é uma forma de seguir em frente.` | 🔉 [original_1.mp3](samples/original_1.mp3) | 🔉 [pt_full_1.mp3](samples/pt_full_1.mp3) | 🔉 [pt_merged_1.mp3](samples/pt_merged_1.mp3) |
67
+ | `[S1] Eu lembro exatamente da primeira vez que ouvi minha própria voz gerada por IA. Foi estranho, quase surreal. Mas ao mesmo tempo, foi incrível perceber até onde a tecnologia já chegou.` | 🔉 [original_2.mp3](samples/original_2.mp3) | 🔉 [pt_full_2.mp3](samples/pt_full_2.mp3) | 🔉 [pt_merged_2.mp3](samples/pt_merged_2.mp3) |
68
+ | `[S1] Era uma vez um menino chamado Leo que adorava olhar para o céu. Todas as noites ele subia no telhado de casa com seu velho binóculo e ficava horas tentando contar as estrelas. Um dia, ele viu algo diferente. Não era um avião, nem um satélite. Era uma luz que piscava lentamente, mudando de cor. No dia seguinte, ninguém acreditou nele. Mas Leo sabia o que tinha visto. E naquela noite, a luz voltou. Só que dessa vez, ela piscou duas vezes... como se estivesse respondendo.` | 🔉 [original_3.mp3](samples/original_3.mp3) | 🔉 [pt_full_3.mp3](samples/pt_full_3.mp3) | 🔉 [pt_merged_3.mp3](samples/pt_merged_3.mp3) |
69
+ | `[S1] Cara, sério... esse setup ficou simplesmente insane. Nunca vi uma configuração tão limpa!` | 🔉 [original_4.mp3](samples/original_4.mp3) | 🔉 [pt_full_4.mp3](samples/pt_full_4.mp3) | 🔉 [pt_merged_4.mp3](samples/pt_merged_4.mp3) |
70
+ | `[S1] Aproveite agora a promoção especial da semana. São até cinquenta por cento de desconto em produtos selecionados, por tempo limitado. Corra e garanta o seu antes que acabe.` | 🔉 [original_5.mp3](samples/original_5.mp3) | 🔉 [pt_full_5.mp3](samples/pt_full_5.mp3) | 🔉 [pt_merged_5.mp3](samples/pt_merged_5.mp3) |
71
+ | `[S1] Se você ainda não testou esse modelo, tá perdendo tempo. (laughs) Ele é rápido, leve e roda até em máquina fraca. Sério, eu não esperava tanto desempenho em algo open source.` | 🔉 [original_6.mp3](samples/original_6.mp3) | 🔉 [pt_full_6.mp3](samples/pt_full_6.mp3) | 🔉 [pt_merged_6.mp3](samples/pt_merged_6.mp3) |
72
+ | `[S1] Acredite: ninguém no mundo tem exatamente o que você tem. Sua visão, sua voz, sua forma de enxergar as coisas. Isso já é suficiente pra começar.` | 🔉 [original_7.mp3](samples/original_7.mp3) | 🔉 [pt_full_7.mp3](samples/pt_full_7.mp3) | 🔉 [pt_merged_7.mp3](samples/pt_merged_7.mp3) |
73
+ | `[S1] Você diz que quer mudar, mas continua fazendo tudo igual. Quer resultado novo com atitude velha? Não funciona. O mundo não vai parar pra te esperar, e a oportunidade não fica batendo na porta pra sempre. Ou você levanta agora e faz o que precisa, ou aceita viver sempre no quase.` | 🔉 [original_8.mp3](samples/original_8.mp3) | 🔉 [pt_full_8.mp3](samples/pt_full_8.mp3) | 🔉 [pt_merged_8.mp3](samples/pt_merged_8.mp3) |
74
+ | `[S1] Você vai desistir agora? Depois de tudo que já passou? [S2] (sighs) Eu tô cansado. Nada parece dar certo. [S1] Cansado todo mundo fica. Mas você não chegou até aqui por sorte. [S2] (pause) Eu só... não sei se ainda consigo. [S1] Consegue sim. Você já levantou antes. (inhales) Levanta de novo. [S2] (exhales) Tá certo. Não acabou enquanto eu não disser que acabou. [S1] Isso. Agora vai lá e faz o que tem que ser feito.` | 🔉 [original_9.mp3](samples/original_9.mp3) | 🔉 [pt_full_9.mp3](samples/pt_full_9.mp3) | 🔉 [pt_merged_9.mp3](samples/pt_merged_9.mp3) |
75
+ | `[S1] Welcome back to the channel! Today, I’m going to show you how to turn basic text into realistic speech using open-source tools. It’s easier than you think, and by the end of this video, you’ll be able to generate your own voiceovers like a pro.` | 🔉 [original_10.mp3](samples/original_10.mp3) | 🔉 [pt_full_10.mp3](samples/pt_full_10.mp3) | 🔉 [pt_merged_10.mp3](samples/pt_merged_10.mp3) |
76
 
77
  ---
78
 
config.json ADDED
@@ -0,0 +1,50 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "data": {
3
+ "audio_bos_value": 1026,
4
+ "audio_eos_value": 1024,
5
+ "audio_length": 3072,
6
+ "audio_pad_value": 1025,
7
+ "channels": 9,
8
+ "delay_pattern": [
9
+ 0,
10
+ 8,
11
+ 9,
12
+ 10,
13
+ 11,
14
+ 12,
15
+ 13,
16
+ 14,
17
+ 15
18
+ ],
19
+ "text_length": 1024,
20
+ "text_pad_value": 0
21
+ },
22
+ "model": {
23
+ "decoder": {
24
+ "cross_head_dim": 128,
25
+ "cross_query_heads": 16,
26
+ "gqa_head_dim": 128,
27
+ "gqa_query_heads": 16,
28
+ "kv_heads": 4,
29
+ "n_embd": 2048,
30
+ "n_hidden": 8192,
31
+ "n_layer": 18
32
+ },
33
+ "dropout": 0.0,
34
+ "encoder": {
35
+ "head_dim": 128,
36
+ "n_embd": 1024,
37
+ "n_head": 16,
38
+ "n_hidden": 4096,
39
+ "n_layer": 12
40
+ },
41
+ "normalization_layer_epsilon": 1e-05,
42
+ "rope_max_timescale": 10000,
43
+ "rope_min_timescale": 1,
44
+ "src_vocab_size": 256,
45
+ "tgt_vocab_size": 1028,
46
+ "weight_dtype": "float32"
47
+ },
48
+ "training": {},
49
+ "version": "0.1"
50
+ }
samples/original_1.mp3 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2f6acd60324d0ccedb1b8c7f81d2dfe4a82e639cd5668560c5be175b3164c15d
3
+ size 153509
samples/original_10.mp3 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e893933c72893d3348c1f047d3d600dcd761c70b1c972c526ef025bd2614f0f5
3
+ size 112398
samples/original_2.mp3 ADDED
Binary file (80.1 kB). View file
 
samples/original_3.mp3 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6120c68c7720f2d494e11a6cecd83515d2c9fbc435c57fe7cf0507315e062b6f
3
+ size 245205
samples/original_4.mp3 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:390b65e619a4a84ea3329531688a6150e242cf6d37ab12a20134b1021beb0e18
3
+ size 107020
samples/original_5.mp3 ADDED
Binary file (93 kB). View file
 
samples/original_6.mp3 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:96dfaa846f7f92d6eb6559afa5199b58d9591c9a51523b3f691d630eafb61c45
3
+ size 212562
samples/original_7.mp3 ADDED
Binary file (71 kB). View file
 
samples/original_8.mp3 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cf766f5e1f7d0173d26b9ba747e1342ed4c5da25ea2b7e9cf46f4e255f30cc51
3
+ size 123083
samples/original_9.mp3 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:46ee76d03c735eb575e220ec864cba98abbef769d62b4a79c7ddbc05aefd3b75
3
+ size 214922
samples/pt_full_1.mp3 ADDED
Binary file (72.1 kB). View file
 
samples/pt_full_10.mp3 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:31b24fb640b5167174f599eed60f6790d8f0f0b0c966bbb0d70d70c033e8a1fe
3
+ size 141282
samples/pt_full_2.mp3 ADDED
Binary file (77 kB). View file
 
samples/pt_full_3.mp3 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e3ad1e47594d4c3735cbf3452064df21d1095b94ff8c2979cdb0349f15dc61fd
3
+ size 243054
samples/pt_full_4_.mp3 ADDED
Binary file (44.7 kB). View file
 
samples/pt_full_5_.mp3 ADDED
Binary file (59.2 kB). View file
 
samples/pt_full_6.mp3 ADDED
Binary file (90.6 kB). View file
 
samples/pt_full_7.mp3 ADDED
Binary file (63.8 kB). View file
 
samples/pt_full_8.mp3 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a3699124c0d0d5dca86b0f9dba83663a6e8cf19fbb4527fc4e169d63f90b9a33
3
+ size 146914
samples/pt_full_9.mp3 ADDED
Binary file (68.8 kB). View file
 
samples/pt_merge_4.mp3 ADDED
Binary file (54.4 kB). View file
 
samples/pt_merged_1.flac ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d4ff0956945c980f151ae3349ece21c62aa20aacb03816daec55c061f73b9c9e
3
+ size 235924
samples/pt_merged_10.mp3 ADDED
Binary file (87.8 kB). View file
 
samples/pt_merged_2.mp3 ADDED
Binary file (82.1 kB). View file
 
samples/pt_merged_3.mp3 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1e887176e885f40e8c5ac29b5db4e584747ce701df85ca49dfa2c3cde5b2424d
3
+ size 198377
samples/pt_merged_5.mp3 ADDED
Binary file (73.5 kB). View file
 
samples/pt_merged_6.mp3 ADDED
Binary file (96.8 kB). View file
 
samples/pt_merged_7.mp3 ADDED
Binary file (64 kB). View file
 
samples/pt_merged_8.mp3 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:512e6cf8cf072cb5b7862646079ca06952b33ac64e3d469616ba89a7cd153581
3
+ size 122565
samples/pt_merged_9.mp3 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:48611274e840197f7c4232f4a9b2eec21da80717f21c5572044d87e87a40422d
3
+ size 196205