Charalampos
/

whisper-medium-el

@@ -358,14 +358,13 @@ def main():
         common_voice = common_voice.cast_column("audio", Audio(sampling_rate=16000))
         common_voice = common_voice.remove_columns(set(common_voice.features.keys()) - set(["audio", "sentence"]))
-        #fleurs = load_maybe_streaming_dataset("google/fleurs", "el_gr", split="train+validation+test")
-        #fleurs = fleurs.cast_column("audio", Audio(sampling_rate=16000))
-        #fleurs = fleurs.rename_column("raw_transcription", "sentence")
-        #fleurs = fleurs.remove_columns(set(fleurs.features.keys()) - set(["audio", "sentence"]))
-        #all_datasets = [common_voice, fleurs]
-        #raw_datasets["train"] = interleave_datasets(all_datasets, stopping_strategy="all_exhausted")
-        raw_datasets["train"] = common_voice
         """
         raw_datasets["train"] = load_maybe_streaming_dataset(

         common_voice = common_voice.cast_column("audio", Audio(sampling_rate=16000))
         common_voice = common_voice.remove_columns(set(common_voice.features.keys()) - set(["audio", "sentence"]))
+        fleurs = load_maybe_streaming_dataset("google/fleurs", "el_gr", split="train+validation+test")
+        fleurs = fleurs.cast_column("audio", Audio(sampling_rate=16000))
+        fleurs = fleurs.rename_column("raw_transcription", "sentence")
+        fleurs = fleurs.remove_columns(set(fleurs.features.keys()) - set(["audio", "sentence"]))
+        all_datasets = [common_voice, fleurs]
+        raw_datasets["train"] = interleave_datasets(all_datasets, stopping_strategy="all_exhausted")
         """
         raw_datasets["train"] = load_maybe_streaming_dataset(