Saving train state of step 5

Browse files

Files changed (5) hide show

distil-whisper/events.out.tfevents.1715183755.server02.1990428.0 +2 -2
distil-whisper/events.out.tfevents.1715185948.server02.2003546.0 +3 -0
distil-whisper/events.out.tfevents.1715198685.server02.2050598.0 +3 -0
model.safetensors +3 -0
run_distillation.py +5 -4

distil-whisper/events.out.tfevents.1715183755.server02.1990428.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89067edc26fa465bd32a850c8f10ead9195d7e28ea74ffab40e7e4c485c2e403
-size 88

 version https://git-lfs.github.com/spec/v1
+oid sha256:0354de01094b8592de53be68e8334fc420b4c287e9e9001240278094f8d39757
+size 428

distil-whisper/events.out.tfevents.1715185948.server02.2003546.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9d1df0578ebc524aef4c901dc2bc8d268d478f60a8425cb059994bd0aa32c8c
+size 88

distil-whisper/events.out.tfevents.1715198685.server02.2050598.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95c1c723bbc492f1204ace70eb4d257d87b54510f03dd9c27d25658eb3400728
+size 392

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc0c1ad5d126bcd257bd671c07641b701a001e808c0e63178fe6a801f1587bbe
+size 3025686376

run_distillation.py CHANGED Viewed

@@ -1278,16 +1278,17 @@ def main():
     # 11. Define Evaluation Metrics
     def compute_metrics(preds, labels):
         # replace padded labels by the padding token
-        print(f" preds : {preds}")
-        print(f" labels : {labels}")
         for idx in range(len(labels)):
             labels[idx][labels[idx] == -100] = tokenizer.pad_token_id
         pred_str = tokenizer.batch_decode(preds, skip_special_tokens=True, decode_with_timestamps=return_timestamps)
         # we do not want to group tokens when computing the metrics
         label_str = tokenizer.batch_decode(labels, skip_special_tokens=True)
         wer_ortho = 100 * metric.compute(predictions=pred_str, references=label_str)
         # normalize everything and re-compute the WER
         norm_pred_str = [normalizer(pred) for pred in pred_str]
         norm_label_str = [normalizer(label) for label in label_str]
@@ -1755,5 +1756,5 @@ def main():
 if __name__ == "__main__":
     main()
     '''
-    accelerate launch --mixed_precision=bf16 run_distillation.py   --model_name_or_path "./distil-large-v3-init"   --teacher_model_name_or_path "openai/whisper-large-v3"   --train_dataset_name "mozilla-foundation/common_voice_15_0"   --train_dataset_config_name "de"   --train_split_name "train"   --text_column_name "sentence"   --eval_dataset_name "mozilla-foundation/common_voice_15_0"   --eval_dataset_config_name "de"   --eval_split_name "validation"   --eval_text_column_name "sentence"   --eval_steps 5 --save_steps 50   --warmup_steps 500   --learning_rate 1e-4   --lr_scheduler_type "linear"   --logging_steps 25   --save_total_limit 1   --max_steps 5   --per_device_train_batch_size 4   --per_device_eval_batch_size 2   --dataloader_num_workers 2   --preprocessing_num_workers 2   --ddp_timeout 7200   --dtype "bfloat16"   --output_dir "./"   --use_pseudo_labels "false"   --condition_on_prev_probability "0.0"   --do_train   --do_eval   --gradient_checkpointing   --overwrite_output_dir   --predict_with_generate   --freeze_encoder   --streaming   --push_to_hub --language de --max_eval_samples 5
     '''

     # 11. Define Evaluation Metrics
     def compute_metrics(preds, labels):
         # replace padded labels by the padding token
         for idx in range(len(labels)):
             labels[idx][labels[idx] == -100] = tokenizer.pad_token_id
         pred_str = tokenizer.batch_decode(preds, skip_special_tokens=True, decode_with_timestamps=return_timestamps)
+        print(f" pred_str : {pred_str}")
         # we do not want to group tokens when computing the metrics
         label_str = tokenizer.batch_decode(labels, skip_special_tokens=True)
         wer_ortho = 100 * metric.compute(predictions=pred_str, references=label_str)
+        print(f" label_str : {label_str}")
         # normalize everything and re-compute the WER
         norm_pred_str = [normalizer(pred) for pred in pred_str]
         norm_label_str = [normalizer(label) for label in label_str]
 if __name__ == "__main__":
     main()
     '''
+    accelerate launch --mixed_precision=bf16 run_distillation.py   --model_name_or_path "./distil-large-v3-init"   --teacher_model_name_or_path "openai/whisper-large-v3"   --train_dataset_name "mozilla-foundation/common_voice_15_0"   --train_dataset_config_name "de"   --train_split_name "train"   --text_column_name "sentence"   --eval_dataset_name "mozilla-foundation/common_voice_15_0"   --eval_dataset_config_name "de"   --eval_split_name "validation"   --eval_text_column_name "sentence"   --eval_steps 5 --save_steps 5   --warmup_steps 500   --learning_rate 1e-4   --lr_scheduler_type "linear"   --logging_steps 5   --save_total_limit 1   --max_steps 15   --per_device_train_batch_size 4   --per_device_eval_batch_size 2   --dataloader_num_workers 2   --preprocessing_num_workers 2   --ddp_timeout 7200   --dtype "bfloat16"   --output_dir "./"   --use_pseudo_labels "false"   --condition_on_prev_probability "0.0"   --do_train   --do_eval   --gradient_checkpointing   --overwrite_output_dir   --predict_with_generate   --freeze_encoder   --streaming   --push_to_hub --language de --max_eval_samples 50
     '''