End of training

Browse files

Files changed (6) hide show

README.md +5 -2
adapter.bem.safetensors +3 -0
all_results.json +15 -0
eval_results.json +9 -0
train_results.json +9 -0
trainer_state.json +499 -0

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,10 +19,10 @@ should probably proofread and complete it, then remove this comment. -->
 # mms-1b-bemgen-female-model
-This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.1921
-- Wer: 0.3442
 ## Model description

 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
+- automatic-speech-recognition
+- bemgen
+- mms
 - generated_from_trainer
 metrics:
 - wer
 # mms-1b-bemgen-female-model
+This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on the BEMGEN - BEM dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.1921
+- Wer: 0.3440
 ## Model description

adapter.bem.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:24ba3bd1bac48734803e9d8774469e7d7bd277384888d42df4db7b1153dfa5b2
+size 8798532

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 2.8776978417266186,
+    "eval_loss": 0.19208292663097382,
+    "eval_runtime": 30.107,
+    "eval_samples": 485,
+    "eval_samples_per_second": 16.109,
+    "eval_steps_per_second": 4.052,
+    "eval_wer": 0.3439911797133407,
+    "total_flos": 6.630103716413751e+18,
+    "train_loss": 0.5161716863087246,
+    "train_runtime": 2738.809,
+    "train_samples": 3890,
+    "train_samples_per_second": 42.61,
+    "train_steps_per_second": 10.658
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 2.8776978417266186,
+    "eval_loss": 0.19208292663097382,
+    "eval_runtime": 30.107,
+    "eval_samples": 485,
+    "eval_samples_per_second": 16.109,
+    "eval_steps_per_second": 4.052,
+    "eval_wer": 0.3439911797133407
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 2.8776978417266186,
+    "total_flos": 6.630103716413751e+18,
+    "train_loss": 0.5161716863087246,
+    "train_runtime": 2738.809,
+    "train_samples": 3890,
+    "train_samples_per_second": 42.61,
+    "train_steps_per_second": 10.658
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,499 @@

+{
+  "best_metric": 0.1877833753824234,
+  "best_model_checkpoint": "/scratch/skscla001/speech/results/mms-1b-bemgen-female-model/checkpoint-2500",
+  "epoch": 2.8776978417266186,
+  "eval_steps": 100,
+  "global_step": 2800,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.10277492291880781,
+      "grad_norm": 2.668320894241333,
+      "learning_rate": 0.000285,
+      "loss": 6.6524,
+      "step": 100
+    },
+    {
+      "epoch": 0.10277492291880781,
+      "eval_loss": 0.6405563950538635,
+      "eval_runtime": 30.4426,
+      "eval_samples_per_second": 15.932,
+      "eval_steps_per_second": 4.008,
+      "eval_wer": 0.6923925027563396,
+      "step": 100
+    },
+    {
+      "epoch": 0.20554984583761562,
+      "grad_norm": 3.9765446186065674,
+      "learning_rate": 0.0002990202818838088,
+      "loss": 0.4626,
+      "step": 200
+    },
+    {
+      "epoch": 0.20554984583761562,
+      "eval_loss": 0.27498528361320496,
+      "eval_runtime": 30.5092,
+      "eval_samples_per_second": 15.897,
+      "eval_steps_per_second": 3.999,
+      "eval_wer": 0.4520396912899669,
+      "step": 200
+    },
+    {
+      "epoch": 0.30832476875642345,
+      "grad_norm": 1.2895652055740356,
+      "learning_rate": 0.00029798899965623925,
+      "loss": 0.3384,
+      "step": 300
+    },
+    {
+      "epoch": 0.30832476875642345,
+      "eval_loss": 0.2555796205997467,
+      "eval_runtime": 30.0486,
+      "eval_samples_per_second": 16.141,
+      "eval_steps_per_second": 4.06,
+      "eval_wer": 0.45865490628445427,
+      "step": 300
+    },
+    {
+      "epoch": 0.41109969167523125,
+      "grad_norm": 8.271388053894043,
+      "learning_rate": 0.0002969577174286696,
+      "loss": 0.3391,
+      "step": 400
+    },
+    {
+      "epoch": 0.41109969167523125,
+      "eval_loss": 0.2390519678592682,
+      "eval_runtime": 29.9294,
+      "eval_samples_per_second": 16.205,
+      "eval_steps_per_second": 4.076,
+      "eval_wer": 0.4119073869900772,
+      "step": 400
+    },
+    {
+      "epoch": 0.513874614594039,
+      "grad_norm": 1.8543354272842407,
+      "learning_rate": 0.0002959264352011,
+      "loss": 0.2928,
+      "step": 500
+    },
+    {
+      "epoch": 0.513874614594039,
+      "eval_loss": 0.23259302973747253,
+      "eval_runtime": 30.0544,
+      "eval_samples_per_second": 16.137,
+      "eval_steps_per_second": 4.059,
+      "eval_wer": 0.40088202866593164,
+      "step": 500
+    },
+    {
+      "epoch": 0.6166495375128469,
+      "grad_norm": 1.9590275287628174,
+      "learning_rate": 0.0002948951529735304,
+      "loss": 0.3126,
+      "step": 600
+    },
+    {
+      "epoch": 0.6166495375128469,
+      "eval_loss": 0.22746512293815613,
+      "eval_runtime": 30.1494,
+      "eval_samples_per_second": 16.087,
+      "eval_steps_per_second": 4.047,
+      "eval_wer": 0.40308710033076073,
+      "step": 600
+    },
+    {
+      "epoch": 0.7194244604316546,
+      "grad_norm": 1.9041965007781982,
+      "learning_rate": 0.0002938638707459608,
+      "loss": 0.3305,
+      "step": 700
+    },
+    {
+      "epoch": 0.7194244604316546,
+      "eval_loss": 0.22082751989364624,
+      "eval_runtime": 29.8842,
+      "eval_samples_per_second": 16.229,
+      "eval_steps_per_second": 4.082,
+      "eval_wer": 0.3977949283351709,
+      "step": 700
+    },
+    {
+      "epoch": 0.8221993833504625,
+      "grad_norm": 1.5732944011688232,
+      "learning_rate": 0.00029283258851839117,
+      "loss": 0.3043,
+      "step": 800
+    },
+    {
+      "epoch": 0.8221993833504625,
+      "eval_loss": 0.21230436861515045,
+      "eval_runtime": 29.8824,
+      "eval_samples_per_second": 16.23,
+      "eval_steps_per_second": 4.083,
+      "eval_wer": 0.38037486218302097,
+      "step": 800
+    },
+    {
+      "epoch": 0.9249743062692704,
+      "grad_norm": 1.669620156288147,
+      "learning_rate": 0.00029180130629082154,
+      "loss": 0.2989,
+      "step": 900
+    },
+    {
+      "epoch": 0.9249743062692704,
+      "eval_loss": 0.21349409222602844,
+      "eval_runtime": 30.0481,
+      "eval_samples_per_second": 16.141,
+      "eval_steps_per_second": 4.06,
+      "eval_wer": 0.37927232635060637,
+      "step": 900
+    },
+    {
+      "epoch": 1.027749229188078,
+      "grad_norm": 1.0011438131332397,
+      "learning_rate": 0.00029077002406325197,
+      "loss": 0.2911,
+      "step": 1000
+    },
+    {
+      "epoch": 1.027749229188078,
+      "eval_loss": 0.21172800660133362,
+      "eval_runtime": 30.6543,
+      "eval_samples_per_second": 15.822,
+      "eval_steps_per_second": 3.98,
+      "eval_wer": 0.38897464167585444,
+      "step": 1000
+    },
+    {
+      "epoch": 1.1305241521068858,
+      "grad_norm": 0.9472767114639282,
+      "learning_rate": 0.00028973874183568234,
+      "loss": 0.2994,
+      "step": 1100
+    },
+    {
+      "epoch": 1.1305241521068858,
+      "eval_loss": 0.20664845407009125,
+      "eval_runtime": 29.9146,
+      "eval_samples_per_second": 16.213,
+      "eval_steps_per_second": 4.078,
+      "eval_wer": 0.38676957001102535,
+      "step": 1100
+    },
+    {
+      "epoch": 1.2332990750256938,
+      "grad_norm": 0.9638025760650635,
+      "learning_rate": 0.0002887074596081127,
+      "loss": 0.2849,
+      "step": 1200
+    },
+    {
+      "epoch": 1.2332990750256938,
+      "eval_loss": 0.21126343309879303,
+      "eval_runtime": 29.8301,
+      "eval_samples_per_second": 16.259,
+      "eval_steps_per_second": 4.09,
+      "eval_wer": 0.39316427783902974,
+      "step": 1200
+    },
+    {
+      "epoch": 1.3360739979445015,
+      "grad_norm": 1.023758053779602,
+      "learning_rate": 0.00028767617738054314,
+      "loss": 0.2864,
+      "step": 1300
+    },
+    {
+      "epoch": 1.3360739979445015,
+      "eval_loss": 0.20175151526927948,
+      "eval_runtime": 30.0501,
+      "eval_samples_per_second": 16.14,
+      "eval_steps_per_second": 4.06,
+      "eval_wer": 0.3713340683572216,
+      "step": 1300
+    },
+    {
+      "epoch": 1.4388489208633093,
+      "grad_norm": 1.0510107278823853,
+      "learning_rate": 0.0002866448951529735,
+      "loss": 0.2611,
+      "step": 1400
+    },
+    {
+      "epoch": 1.4388489208633093,
+      "eval_loss": 0.2004697620868683,
+      "eval_runtime": 30.4532,
+      "eval_samples_per_second": 15.926,
+      "eval_steps_per_second": 4.006,
+      "eval_wer": 0.4004410143329658,
+      "step": 1400
+    },
+    {
+      "epoch": 1.541623843782117,
+      "grad_norm": 1.148527979850769,
+      "learning_rate": 0.0002856136129254039,
+      "loss": 0.2995,
+      "step": 1500
+    },
+    {
+      "epoch": 1.541623843782117,
+      "eval_loss": 0.1996380090713501,
+      "eval_runtime": 29.9115,
+      "eval_samples_per_second": 16.214,
+      "eval_steps_per_second": 4.079,
+      "eval_wer": 0.372877618522602,
+      "step": 1500
+    },
+    {
+      "epoch": 1.644398766700925,
+      "grad_norm": 0.7263904809951782,
+      "learning_rate": 0.00028458233069783426,
+      "loss": 0.2787,
+      "step": 1600
+    },
+    {
+      "epoch": 1.644398766700925,
+      "eval_loss": 0.2014673948287964,
+      "eval_runtime": 29.8924,
+      "eval_samples_per_second": 16.225,
+      "eval_steps_per_second": 4.081,
+      "eval_wer": 0.3647188533627343,
+      "step": 1600
+    },
+    {
+      "epoch": 1.7471736896197327,
+      "grad_norm": 0.9115646481513977,
+      "learning_rate": 0.0002835510484702647,
+      "loss": 0.2444,
+      "step": 1700
+    },
+    {
+      "epoch": 1.7471736896197327,
+      "eval_loss": 0.19884684681892395,
+      "eval_runtime": 30.122,
+      "eval_samples_per_second": 16.101,
+      "eval_steps_per_second": 4.05,
+      "eval_wer": 0.3603087100330761,
+      "step": 1700
+    },
+    {
+      "epoch": 1.8499486125385407,
+      "grad_norm": 0.9806845784187317,
+      "learning_rate": 0.00028251976624269506,
+      "loss": 0.2734,
+      "step": 1800
+    },
+    {
+      "epoch": 1.8499486125385407,
+      "eval_loss": 0.19500485062599182,
+      "eval_runtime": 30.0764,
+      "eval_samples_per_second": 16.126,
+      "eval_steps_per_second": 4.056,
+      "eval_wer": 0.3589856670341786,
+      "step": 1800
+    },
+    {
+      "epoch": 1.9527235354573484,
+      "grad_norm": 0.7178159356117249,
+      "learning_rate": 0.00028148848401512544,
+      "loss": 0.2794,
+      "step": 1900
+    },
+    {
+      "epoch": 1.9527235354573484,
+      "eval_loss": 0.19534997642040253,
+      "eval_runtime": 29.8724,
+      "eval_samples_per_second": 16.236,
+      "eval_steps_per_second": 4.084,
+      "eval_wer": 0.3545755237045204,
+      "step": 1900
+    },
+    {
+      "epoch": 2.055498458376156,
+      "grad_norm": 1.4567710161209106,
+      "learning_rate": 0.00028045720178755586,
+      "loss": 0.2708,
+      "step": 2000
+    },
+    {
+      "epoch": 2.055498458376156,
+      "eval_loss": 0.19343802332878113,
+      "eval_runtime": 29.925,
+      "eval_samples_per_second": 16.207,
+      "eval_steps_per_second": 4.077,
+      "eval_wer": 0.36097023153252483,
+      "step": 2000
+    },
+    {
+      "epoch": 2.158273381294964,
+      "grad_norm": 0.5352274179458618,
+      "learning_rate": 0.00027942591955998624,
+      "loss": 0.2545,
+      "step": 2100
+    },
+    {
+      "epoch": 2.158273381294964,
+      "eval_loss": 0.19527685642242432,
+      "eval_runtime": 30.2437,
+      "eval_samples_per_second": 16.036,
+      "eval_steps_per_second": 4.034,
+      "eval_wer": 0.36163175303197354,
+      "step": 2100
+    },
+    {
+      "epoch": 2.2610483042137717,
+      "grad_norm": 0.7689425349235535,
+      "learning_rate": 0.0002784049501546923,
+      "loss": 0.2529,
+      "step": 2200
+    },
+    {
+      "epoch": 2.2610483042137717,
+      "eval_loss": 0.19401085376739502,
+      "eval_runtime": 30.2778,
+      "eval_samples_per_second": 16.018,
+      "eval_steps_per_second": 4.029,
+      "eval_wer": 0.35589856670341785,
+      "step": 2200
+    },
+    {
+      "epoch": 2.3638232271325794,
+      "grad_norm": 0.518496572971344,
+      "learning_rate": 0.0002773736679271227,
+      "loss": 0.2628,
+      "step": 2300
+    },
+    {
+      "epoch": 2.3638232271325794,
+      "eval_loss": 0.1926334649324417,
+      "eval_runtime": 30.0716,
+      "eval_samples_per_second": 16.128,
+      "eval_steps_per_second": 4.057,
+      "eval_wer": 0.3585446527012128,
+      "step": 2300
+    },
+    {
+      "epoch": 2.4665981500513876,
+      "grad_norm": 0.47154027223587036,
+      "learning_rate": 0.0002763423856995531,
+      "loss": 0.2788,
+      "step": 2400
+    },
+    {
+      "epoch": 2.4665981500513876,
+      "eval_loss": 0.1925119012594223,
+      "eval_runtime": 29.9369,
+      "eval_samples_per_second": 16.201,
+      "eval_steps_per_second": 4.075,
+      "eval_wer": 0.35104740904079385,
+      "step": 2400
+    },
+    {
+      "epoch": 2.5693730729701953,
+      "grad_norm": 0.4298442304134369,
+      "learning_rate": 0.0002753111034719835,
+      "loss": 0.2473,
+      "step": 2500
+    },
+    {
+      "epoch": 2.5693730729701953,
+      "eval_loss": 0.1877833753824234,
+      "eval_runtime": 30.3202,
+      "eval_samples_per_second": 15.996,
+      "eval_steps_per_second": 4.024,
+      "eval_wer": 0.34994487320837925,
+      "step": 2500
+    },
+    {
+      "epoch": 2.672147995889003,
+      "grad_norm": 1.0587983131408691,
+      "learning_rate": 0.0002742798212444139,
+      "loss": 0.2595,
+      "step": 2600
+    },
+    {
+      "epoch": 2.672147995889003,
+      "eval_loss": 0.19105447828769684,
+      "eval_runtime": 30.2772,
+      "eval_samples_per_second": 16.019,
+      "eval_steps_per_second": 4.029,
+      "eval_wer": 0.37045203969129,
+      "step": 2600
+    },
+    {
+      "epoch": 2.774922918807811,
+      "grad_norm": 0.7508417963981628,
+      "learning_rate": 0.00027324853901684426,
+      "loss": 0.2516,
+      "step": 2700
+    },
+    {
+      "epoch": 2.774922918807811,
+      "eval_loss": 0.188262939453125,
+      "eval_runtime": 30.0618,
+      "eval_samples_per_second": 16.133,
+      "eval_steps_per_second": 4.058,
+      "eval_wer": 0.3479603087100331,
+      "step": 2700
+    },
+    {
+      "epoch": 2.8776978417266186,
+      "grad_norm": 1.4504516124725342,
+      "learning_rate": 0.00027221725678927463,
+      "loss": 0.2445,
+      "step": 2800
+    },
+    {
+      "epoch": 2.8776978417266186,
+      "eval_loss": 0.19207896292209625,
+      "eval_runtime": 30.0543,
+      "eval_samples_per_second": 16.137,
+      "eval_steps_per_second": 4.059,
+      "eval_wer": 0.3442116868798236,
+      "step": 2800
+    },
+    {
+      "epoch": 2.8776978417266186,
+      "step": 2800,
+      "total_flos": 6.630103716413751e+18,
+      "train_loss": 0.5161716863087246,
+      "train_runtime": 2738.809,
+      "train_samples_per_second": 42.61,
+      "train_steps_per_second": 10.658
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 29190,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 400,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 3
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.630103716413751e+18,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}