Update README.md
Browse files
README.md
CHANGED
@@ -55,7 +55,7 @@ model = Wav2Vec2ForCTC.from_pretrained("othrif/wav2vec2-large-xlsr-moroccan")
|
|
55 |
model.to("cuda")
|
56 |
|
57 |
|
58 |
-
chars_to_ignore_regex = '[
|
59 |
|
60 |
def remove_special_characters(batch):
|
61 |
batch["text"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).lower() + " "
|
@@ -98,6 +98,37 @@ for reference, predicted in zip(dataset["sentence"], dataset["predicted"]):
|
|
98 |
print("--")
|
99 |
```
|
100 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
101 |
|
102 |
## Evaluation
|
103 |
|
@@ -120,7 +151,7 @@ processor = Wav2Vec2Processor.from_pretrained("othrif/wav2vec2-large-xlsr-morocc
|
|
120 |
model = Wav2Vec2ForCTC.from_pretrained("othrif/wav2vec2-large-xlsr-moroccan")
|
121 |
model.to("cuda")
|
122 |
|
123 |
-
chars_to_ignore_regex = '[
|
124 |
|
125 |
def remove_special_characters(batch):
|
126 |
batch["text"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).lower() + " "
|
|
|
55 |
model.to("cuda")
|
56 |
|
57 |
|
58 |
+
chars_to_ignore_regex = '[\\,\\?\\.\\!\\-\\;\\:\\"\\“\\'\\�]'
|
59 |
|
60 |
def remove_special_characters(batch):
|
61 |
batch["text"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).lower() + " "
|
|
|
98 |
print("--")
|
99 |
```
|
100 |
|
101 |
+
Here's the output:
|
102 |
+
```
|
103 |
+
reference: عشرين ألفريال الوحده وشي خمسميه دريال
|
104 |
+
|
105 |
+
predicted: عشرين علف ريا لوحده وشي خمسميات ريال
|
106 |
+
--
|
107 |
+
reference: واحد جوج تلاتة ربعه خمسة ستة
|
108 |
+
|
109 |
+
predicted: غيحك تويش تتبة نتاست
|
110 |
+
--
|
111 |
+
reference: هي هاديك غتجينا تقريبا ميه وسته وعشرين ألف ريال
|
112 |
+
|
113 |
+
predicted: ياض كتجينا تقريبه ميه أو ستي و عشيناأفرين
|
114 |
+
--
|
115 |
+
reference: ###والصرف ليبقا نجيب بيه الصالون فلهوندا... أهاه نديروها علاش لا؟...
|
116 |
+
|
117 |
+
predicted: أواصرف ليبقا نجيب يه اصالون فالهندا أه نديروها علاش لا
|
118 |
+
--
|
119 |
+
reference: ###صافي مشات... أنا أختي معندي مندير بهاد صداع الراس...
|
120 |
+
|
121 |
+
predicted: صافي مشات أنا خصي معندي مندير بهاد داع راسك
|
122 |
+
ف
|
123 |
+
--
|
124 |
+
reference: خلصو ليا غير لكريدي ديالي وديرو ليعجبكوم
|
125 |
+
|
126 |
+
predicted: خلصو ليا غير لكريدي ديالي أوديرو لي عجبكوم
|
127 |
+
--
|
128 |
+
reference: أنا نتكلف يلاه لقى شي حاجه نشغل بيها راسي
|
129 |
+
|
130 |
+
predicted: أنا نتكلف يالله لقا شي حاجه نشغل بيها راسي
|
131 |
+
```
|
132 |
|
133 |
## Evaluation
|
134 |
|
|
|
151 |
model = Wav2Vec2ForCTC.from_pretrained("othrif/wav2vec2-large-xlsr-moroccan")
|
152 |
model.to("cuda")
|
153 |
|
154 |
+
chars_to_ignore_regex = '[\\,\\?\\.\\!\\-\\;\\:\\"\\“\\'\\�]'
|
155 |
|
156 |
def remove_special_characters(batch):
|
157 |
batch["text"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).lower() + " "
|