End of training

Browse files

Files changed (7) hide show

README.md +4 -1
adapter.swa.safetensors +3 -0
all_results.json +15 -0
eval_results.json +9 -0
runs/Jan03_09-57-35_srvrocgpu011.uct.ac.za/events.out.tfevents.1735893906.srvrocgpu011.uct.ac.za +3 -0
train_results.json +9 -0
trainer_state.json +259 -0

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,7 +19,7 @@ should probably proofread and complete it, then remove this comment. -->
 # mms-1b-swagen-combined-15hrs-model
-This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.2307
 - Wer: 0.1929

 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
+- automatic-speech-recognition
+- swagen
+- mms
 - generated_from_trainer
 metrics:
 - wer
 # mms-1b-swagen-combined-15hrs-model
+This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on the SWAGEN - SWA dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.2307
 - Wer: 0.1929

adapter.swa.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4350638faa5551178cfcd7b463ba47ba2b135df3ab5cd07b67c8fcb18b3a1d9c
+size 8865152

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 1.035870864886409,
+    "eval_loss": 0.23070356249809265,
+    "eval_runtime": 65.4406,
+    "eval_samples": 1132,
+    "eval_samples_per_second": 17.298,
+    "eval_steps_per_second": 4.325,
+    "eval_wer": 0.19288835915772745,
+    "total_flos": 5.341353862310001e+18,
+    "train_loss": 1.5951181411743165,
+    "train_runtime": 2475.2222,
+    "train_samples": 10036,
+    "train_samples_per_second": 121.638,
+    "train_steps_per_second": 15.199
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.035870864886409,
+    "eval_loss": 0.23070356249809265,
+    "eval_runtime": 65.4406,
+    "eval_samples": 1132,
+    "eval_samples_per_second": 17.298,
+    "eval_steps_per_second": 4.325,
+    "eval_wer": 0.19288835915772745
+}

runs/Jan03_09-57-35_srvrocgpu011.uct.ac.za/events.out.tfevents.1735893906.srvrocgpu011.uct.ac.za ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ee5f532fcc7dceb4e810e72cfbec17aebb0644734cf575ffd5bd464b6abfe3b
+size 40

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.035870864886409,
+    "total_flos": 5.341353862310001e+18,
+    "train_loss": 1.5951181411743165,
+    "train_runtime": 2475.2222,
+    "train_samples": 10036,
+    "train_samples_per_second": 121.638,
+    "train_steps_per_second": 15.199
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,259 @@

+{
+  "best_metric": 0.2293323278427124,
+  "best_model_checkpoint": "/scratch/skscla001/speech/results/mms-1b-swagen-combined-15hrs-model/checkpoint-900",
+  "epoch": 1.035870864886409,
+  "eval_steps": 100,
+  "global_step": 1300,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07971303308090873,
+      "grad_norm": 4.197810173034668,
+      "learning_rate": 0.000279,
+      "loss": 14.8801,
+      "step": 100
+    },
+    {
+      "epoch": 0.07971303308090873,
+      "eval_loss": 0.7376943230628967,
+      "eval_runtime": 64.6778,
+      "eval_samples_per_second": 17.502,
+      "eval_steps_per_second": 4.376,
+      "eval_wer": 0.44259038537941997,
+      "step": 100
+    },
+    {
+      "epoch": 0.15942606616181745,
+      "grad_norm": 4.988656997680664,
+      "learning_rate": 0.0002992563965884861,
+      "loss": 0.6766,
+      "step": 200
+    },
+    {
+      "epoch": 0.15942606616181745,
+      "eval_loss": 0.2687693238258362,
+      "eval_runtime": 64.5932,
+      "eval_samples_per_second": 17.525,
+      "eval_steps_per_second": 4.381,
+      "eval_wer": 0.20063567739372268,
+      "step": 200
+    },
+    {
+      "epoch": 0.2391390992427262,
+      "grad_norm": 3.365363836288452,
+      "learning_rate": 0.0002984568230277185,
+      "loss": 0.5153,
+      "step": 300
+    },
+    {
+      "epoch": 0.2391390992427262,
+      "eval_loss": 0.24840499460697174,
+      "eval_runtime": 64.6789,
+      "eval_samples_per_second": 17.502,
+      "eval_steps_per_second": 4.375,
+      "eval_wer": 0.19745729042510926,
+      "step": 300
+    },
+    {
+      "epoch": 0.3188521323236349,
+      "grad_norm": 2.4677116870880127,
+      "learning_rate": 0.00029765724946695095,
+      "loss": 0.526,
+      "step": 400
+    },
+    {
+      "epoch": 0.3188521323236349,
+      "eval_loss": 0.23976168036460876,
+      "eval_runtime": 64.8543,
+      "eval_samples_per_second": 17.455,
+      "eval_steps_per_second": 4.364,
+      "eval_wer": 0.19487485101311083,
+      "step": 400
+    },
+    {
+      "epoch": 0.3985651654045436,
+      "grad_norm": 3.4616479873657227,
+      "learning_rate": 0.0002968576759061834,
+      "loss": 0.4874,
+      "step": 500
+    },
+    {
+      "epoch": 0.3985651654045436,
+      "eval_loss": 0.23978756368160248,
+      "eval_runtime": 65.3676,
+      "eval_samples_per_second": 17.317,
+      "eval_steps_per_second": 4.329,
+      "eval_wer": 0.19576877234803336,
+      "step": 500
+    },
+    {
+      "epoch": 0.4782781984854524,
+      "grad_norm": 1.9864723682403564,
+      "learning_rate": 0.00029605810234541576,
+      "loss": 0.4666,
+      "step": 600
+    },
+    {
+      "epoch": 0.4782781984854524,
+      "eval_loss": 0.2357860654592514,
+      "eval_runtime": 64.7957,
+      "eval_samples_per_second": 17.47,
+      "eval_steps_per_second": 4.368,
+      "eval_wer": 0.19090186730234407,
+      "step": 600
+    },
+    {
+      "epoch": 0.5579912315663611,
+      "grad_norm": 2.5512609481811523,
+      "learning_rate": 0.00029525852878464813,
+      "loss": 0.4406,
+      "step": 700
+    },
+    {
+      "epoch": 0.5579912315663611,
+      "eval_loss": 0.2390868365764618,
+      "eval_runtime": 64.7802,
+      "eval_samples_per_second": 17.474,
+      "eval_steps_per_second": 4.369,
+      "eval_wer": 0.194378228049265,
+      "step": 700
+    },
+    {
+      "epoch": 0.6377042646472698,
+      "grad_norm": 6.3221330642700195,
+      "learning_rate": 0.00029445895522388056,
+      "loss": 0.4689,
+      "step": 800
+    },
+    {
+      "epoch": 0.6377042646472698,
+      "eval_loss": 0.23335325717926025,
+      "eval_runtime": 64.7754,
+      "eval_samples_per_second": 17.476,
+      "eval_steps_per_second": 4.369,
+      "eval_wer": 0.19259038537941994,
+      "step": 800
+    },
+    {
+      "epoch": 0.7174172977281785,
+      "grad_norm": 2.1293585300445557,
+      "learning_rate": 0.000293659381663113,
+      "loss": 0.462,
+      "step": 900
+    },
+    {
+      "epoch": 0.7174172977281785,
+      "eval_loss": 0.2293323278427124,
+      "eval_runtime": 65.6055,
+      "eval_samples_per_second": 17.255,
+      "eval_steps_per_second": 4.314,
+      "eval_wer": 0.19268970997218912,
+      "step": 900
+    },
+    {
+      "epoch": 0.7971303308090872,
+      "grad_norm": 6.672135353088379,
+      "learning_rate": 0.00029285980810234537,
+      "loss": 0.4407,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7971303308090872,
+      "eval_loss": 0.22934316098690033,
+      "eval_runtime": 65.0636,
+      "eval_samples_per_second": 17.398,
+      "eval_steps_per_second": 4.35,
+      "eval_wer": 0.19308700834326578,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8768433638899961,
+      "grad_norm": 7.573569297790527,
+      "learning_rate": 0.0002920602345415778,
+      "loss": 0.4567,
+      "step": 1100
+    },
+    {
+      "epoch": 0.8768433638899961,
+      "eval_loss": 0.22979336977005005,
+      "eval_runtime": 65.234,
+      "eval_samples_per_second": 17.353,
+      "eval_steps_per_second": 4.338,
+      "eval_wer": 0.19278903456495827,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9565563969709048,
+      "grad_norm": 2.2756216526031494,
+      "learning_rate": 0.00029126066098081023,
+      "loss": 0.4711,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9565563969709048,
+      "eval_loss": 0.23050223290920258,
+      "eval_runtime": 65.3786,
+      "eval_samples_per_second": 17.315,
+      "eval_steps_per_second": 4.329,
+      "eval_wer": 0.19715931664680175,
+      "step": 1200
+    },
+    {
+      "epoch": 1.035870864886409,
+      "grad_norm": 1.712958574295044,
+      "learning_rate": 0.0002904610874200426,
+      "loss": 0.4444,
+      "step": 1300
+    },
+    {
+      "epoch": 1.035870864886409,
+      "eval_loss": 0.23069703578948975,
+      "eval_runtime": 66.0724,
+      "eval_samples_per_second": 17.133,
+      "eval_steps_per_second": 4.283,
+      "eval_wer": 0.19288835915772745,
+      "step": 1300
+    },
+    {
+      "epoch": 1.035870864886409,
+      "step": 1300,
+      "total_flos": 5.341353862310001e+18,
+      "train_loss": 1.5951181411743165,
+      "train_runtime": 2475.2222,
+      "train_samples_per_second": 121.638,
+      "train_steps_per_second": 15.199
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 37620,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 400,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 4,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 3
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.341353862310001e+18,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}