End of training

Browse files

Files changed (5) hide show

README.md +6 -3
all_results.json +16 -0
eval_results.json +10 -0
train_results.json +9 -0
trainer_state.json +932 -0

README.md CHANGED Viewed

@@ -1,7 +1,10 @@
 ---
 library_name: transformers
 base_model: rinna/japanese-hubert-base
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -15,11 +18,11 @@ should probably proofread and complete it, then remove this comment. -->
 # Hubert-kakeiken-W-closed_add_ver2
-This model is a fine-tuned version of [rinna/japanese-hubert-base](https://huggingface.co/rinna/japanese-hubert-base) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0581
 - Wer: 0.9988
-- Cer: 1.0133
 ## Model description

 ---
 library_name: transformers
+license: apache-2.0
 base_model: rinna/japanese-hubert-base
 tags:
+- automatic-speech-recognition
+- original_kakeiken_W_closed_add_ver2
 - generated_from_trainer
 metrics:
 - wer
 # Hubert-kakeiken-W-closed_add_ver2
+This model is a fine-tuned version of [rinna/japanese-hubert-base](https://huggingface.co/rinna/japanese-hubert-base) on the ORIGINAL_KAKEIKEN_W_CLOSED_ADD_VER2 - JA dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0617
 - Wer: 0.9988
+- Cer: 1.0129
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 39.955088118249,
+    "eval_cer": 1.0129208155523945,
+    "eval_loss": 0.061716873198747635,
+    "eval_runtime": 59.3704,
+    "eval_samples": 6840,
+    "eval_samples_per_second": 115.209,
+    "eval_steps_per_second": 14.401,
+    "eval_wer": 0.9988304093567252,
+    "total_flos": 1.8269796433195942e+19,
+    "train_loss": 1.1798896302406563,
+    "train_runtime": 28544.574,
+    "train_samples": 56280,
+    "train_samples_per_second": 78.866,
+    "train_steps_per_second": 1.232
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 39.955088118249,
+    "eval_cer": 1.0129208155523945,
+    "eval_loss": 0.061716873198747635,
+    "eval_runtime": 59.3704,
+    "eval_samples": 6840,
+    "eval_samples_per_second": 115.209,
+    "eval_steps_per_second": 14.401,
+    "eval_wer": 0.9988304093567252
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 39.955088118249,
+    "total_flos": 1.8269796433195942e+19,
+    "train_loss": 1.1798896302406563,
+    "train_runtime": 28544.574,
+    "train_samples": 56280,
+    "train_samples_per_second": 78.866,
+    "train_steps_per_second": 1.232
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,932 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 39.955088118249,
+  "eval_steps": 100.0,
+  "global_step": 35160,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.5685048322910745,
+      "grad_norm": 58.098880767822266,
+      "learning_rate": 1.1904e-06,
+      "loss": 28.4059,
+      "step": 500
+    },
+    {
+      "epoch": 1.0,
+      "eval_cer": 1.1284080132764343,
+      "eval_loss": 10.672073364257812,
+      "eval_runtime": 62.3734,
+      "eval_samples_per_second": 109.662,
+      "eval_steps_per_second": 13.708,
+      "eval_wer": 1.0,
+      "step": 880
+    },
+    {
+      "epoch": 1.1364411597498578,
+      "grad_norm": 39.93675231933594,
+      "learning_rate": 2.3880000000000003e-06,
+      "loss": 11.3029,
+      "step": 1000
+    },
+    {
+      "epoch": 1.7049459920409324,
+      "grad_norm": 36.53426742553711,
+      "learning_rate": 3.588e-06,
+      "loss": 9.1792,
+      "step": 1500
+    },
+    {
+      "epoch": 2.0,
+      "eval_cer": 1.1283783783783783,
+      "eval_loss": 6.992434978485107,
+      "eval_runtime": 59.9626,
+      "eval_samples_per_second": 114.071,
+      "eval_steps_per_second": 14.259,
+      "eval_wer": 1.0,
+      "step": 1760
+    },
+    {
+      "epoch": 2.2728823194997156,
+      "grad_norm": 24.559185028076172,
+      "learning_rate": 4.788e-06,
+      "loss": 7.001,
+      "step": 2000
+    },
+    {
+      "epoch": 2.8413871517907903,
+      "grad_norm": 10.105766296386719,
+      "learning_rate": 5.988e-06,
+      "loss": 4.9143,
+      "step": 2500
+    },
+    {
+      "epoch": 3.0,
+      "eval_cer": 1.1283783783783783,
+      "eval_loss": 3.8166255950927734,
+      "eval_runtime": 59.1681,
+      "eval_samples_per_second": 115.603,
+      "eval_steps_per_second": 14.45,
+      "eval_wer": 1.0,
+      "step": 2640
+    },
+    {
+      "epoch": 3.4093234792495735,
+      "grad_norm": 1.8796437978744507,
+      "learning_rate": 7.1880000000000005e-06,
+      "loss": 3.6813,
+      "step": 3000
+    },
+    {
+      "epoch": 3.977828311540648,
+      "grad_norm": 2.5441930294036865,
+      "learning_rate": 8.388e-06,
+      "loss": 3.1394,
+      "step": 3500
+    },
+    {
+      "epoch": 4.0,
+      "eval_cer": 1.1283191085822666,
+      "eval_loss": 2.882925033569336,
+      "eval_runtime": 60.4525,
+      "eval_samples_per_second": 113.147,
+      "eval_steps_per_second": 14.143,
+      "eval_wer": 1.0,
+      "step": 3520
+    },
+    {
+      "epoch": 4.545764638999431,
+      "grad_norm": 1.8130204677581787,
+      "learning_rate": 9.588e-06,
+      "loss": 2.7266,
+      "step": 4000
+    },
+    {
+      "epoch": 5.0,
+      "eval_cer": 1.1444108582266477,
+      "eval_loss": 1.9608492851257324,
+      "eval_runtime": 61.7902,
+      "eval_samples_per_second": 110.697,
+      "eval_steps_per_second": 13.837,
+      "eval_wer": 1.0,
+      "step": 4400
+    },
+    {
+      "epoch": 5.1137009664582145,
+      "grad_norm": 5.103806972503662,
+      "learning_rate": 1.0787999999999999e-05,
+      "loss": 2.1714,
+      "step": 4500
+    },
+    {
+      "epoch": 5.6822057987492895,
+      "grad_norm": 6.647071838378906,
+      "learning_rate": 1.1988000000000001e-05,
+      "loss": 1.4314,
+      "step": 5000
+    },
+    {
+      "epoch": 6.0,
+      "eval_cer": 1.0662043622569939,
+      "eval_loss": 0.8433689475059509,
+      "eval_runtime": 62.0284,
+      "eval_samples_per_second": 110.272,
+      "eval_steps_per_second": 13.784,
+      "eval_wer": 0.9998538011695907,
+      "step": 5280
+    },
+    {
+      "epoch": 6.250142126208073,
+      "grad_norm": 5.186183929443359,
+      "learning_rate": 1.3188e-05,
+      "loss": 0.9139,
+      "step": 5500
+    },
+    {
+      "epoch": 6.818646958499147,
+      "grad_norm": 5.24096155166626,
+      "learning_rate": 1.4388000000000002e-05,
+      "loss": 0.6837,
+      "step": 6000
+    },
+    {
+      "epoch": 7.0,
+      "eval_cer": 1.0329540066382172,
+      "eval_loss": 0.4582904875278473,
+      "eval_runtime": 60.9484,
+      "eval_samples_per_second": 112.226,
+      "eval_steps_per_second": 14.028,
+      "eval_wer": 0.9997076023391813,
+      "step": 6160
+    },
+    {
+      "epoch": 7.386583285957931,
+      "grad_norm": 5.6131510734558105,
+      "learning_rate": 1.5588e-05,
+      "loss": 0.5497,
+      "step": 6500
+    },
+    {
+      "epoch": 7.955088118249005,
+      "grad_norm": 7.207092761993408,
+      "learning_rate": 1.6788e-05,
+      "loss": 0.403,
+      "step": 7000
+    },
+    {
+      "epoch": 8.0,
+      "eval_cer": 1.0478603603603605,
+      "eval_loss": 0.25122731924057007,
+      "eval_runtime": 62.9796,
+      "eval_samples_per_second": 108.607,
+      "eval_steps_per_second": 13.576,
+      "eval_wer": 0.9991228070175439,
+      "step": 7040
+    },
+    {
+      "epoch": 8.523024445707788,
+      "grad_norm": 1.6712586879730225,
+      "learning_rate": 1.7988e-05,
+      "loss": 0.3035,
+      "step": 7500
+    },
+    {
+      "epoch": 9.0,
+      "eval_cer": 1.0364805595068753,
+      "eval_loss": 0.19720108807086945,
+      "eval_runtime": 61.791,
+      "eval_samples_per_second": 110.696,
+      "eval_steps_per_second": 13.837,
+      "eval_wer": 0.9992690058479532,
+      "step": 7920
+    },
+    {
+      "epoch": 9.090960773166572,
+      "grad_norm": 5.482681751251221,
+      "learning_rate": 1.9188e-05,
+      "loss": 0.2585,
+      "step": 8000
+    },
+    {
+      "epoch": 9.659465605457646,
+      "grad_norm": 2.9059221744537354,
+      "learning_rate": 2.0388e-05,
+      "loss": 0.229,
+      "step": 8500
+    },
+    {
+      "epoch": 10.0,
+      "eval_cer": 1.026434329065908,
+      "eval_loss": 0.08719063550233841,
+      "eval_runtime": 64.0548,
+      "eval_samples_per_second": 106.784,
+      "eval_steps_per_second": 13.348,
+      "eval_wer": 0.9991228070175439,
+      "step": 8800
+    },
+    {
+      "epoch": 10.227401932916429,
+      "grad_norm": 4.925757884979248,
+      "learning_rate": 2.1588e-05,
+      "loss": 0.2205,
+      "step": 9000
+    },
+    {
+      "epoch": 10.795906765207505,
+      "grad_norm": 4.320206642150879,
+      "learning_rate": 2.2788000000000003e-05,
+      "loss": 0.1995,
+      "step": 9500
+    },
+    {
+      "epoch": 11.0,
+      "eval_cer": 1.0261972498814604,
+      "eval_loss": 0.09591592103242874,
+      "eval_runtime": 63.0889,
+      "eval_samples_per_second": 108.418,
+      "eval_steps_per_second": 13.552,
+      "eval_wer": 0.9988304093567252,
+      "step": 9680
+    },
+    {
+      "epoch": 11.363843092666288,
+      "grad_norm": 4.490440368652344,
+      "learning_rate": 2.3988e-05,
+      "loss": 0.1909,
+      "step": 10000
+    },
+    {
+      "epoch": 11.932347924957362,
+      "grad_norm": 4.226001739501953,
+      "learning_rate": 2.5188e-05,
+      "loss": 0.1824,
+      "step": 10500
+    },
+    {
+      "epoch": 12.0,
+      "eval_cer": 1.0316500711237553,
+      "eval_loss": 0.1011653020977974,
+      "eval_runtime": 60.7879,
+      "eval_samples_per_second": 112.522,
+      "eval_steps_per_second": 14.065,
+      "eval_wer": 0.9988304093567252,
+      "step": 10560
+    },
+    {
+      "epoch": 12.500284252416145,
+      "grad_norm": 4.8370466232299805,
+      "learning_rate": 2.6388000000000002e-05,
+      "loss": 0.1774,
+      "step": 11000
+    },
+    {
+      "epoch": 13.0,
+      "eval_cer": 1.0220483641536273,
+      "eval_loss": 0.05406388267874718,
+      "eval_runtime": 60.5368,
+      "eval_samples_per_second": 112.989,
+      "eval_steps_per_second": 14.124,
+      "eval_wer": 0.9991228070175439,
+      "step": 11440
+    },
+    {
+      "epoch": 13.068220579874929,
+      "grad_norm": 4.82689094543457,
+      "learning_rate": 2.7585600000000002e-05,
+      "loss": 0.1761,
+      "step": 11500
+    },
+    {
+      "epoch": 13.636725412166003,
+      "grad_norm": 0.785372793674469,
+      "learning_rate": 2.87856e-05,
+      "loss": 0.1739,
+      "step": 12000
+    },
+    {
+      "epoch": 14.0,
+      "eval_cer": 1.026997392128971,
+      "eval_loss": 0.0703384280204773,
+      "eval_runtime": 60.3222,
+      "eval_samples_per_second": 113.391,
+      "eval_steps_per_second": 14.174,
+      "eval_wer": 0.9989766081871345,
+      "step": 12320
+    },
+    {
+      "epoch": 14.204661739624786,
+      "grad_norm": 2.4106199741363525,
+      "learning_rate": 2.99856e-05,
+      "loss": 0.1642,
+      "step": 12500
+    },
+    {
+      "epoch": 14.773166571915862,
+      "grad_norm": 2.8759591579437256,
+      "learning_rate": 2.996483380918142e-05,
+      "loss": 0.1609,
+      "step": 13000
+    },
+    {
+      "epoch": 15.0,
+      "eval_cer": 1.0202702702702702,
+      "eval_loss": 0.048034194856882095,
+      "eval_runtime": 61.6445,
+      "eval_samples_per_second": 110.959,
+      "eval_steps_per_second": 13.87,
+      "eval_wer": 0.9988304093567252,
+      "step": 13200
+    },
+    {
+      "epoch": 15.341102899374645,
+      "grad_norm": 5.875328540802002,
+      "learning_rate": 2.9857791176729968e-05,
+      "loss": 0.1583,
+      "step": 13500
+    },
+    {
+      "epoch": 15.90960773166572,
+      "grad_norm": 3.2317707538604736,
+      "learning_rate": 2.9679381078280773e-05,
+      "loss": 0.1512,
+      "step": 14000
+    },
+    {
+      "epoch": 16.0,
+      "eval_cer": 1.016239924134661,
+      "eval_loss": 0.053960736840963364,
+      "eval_runtime": 61.5915,
+      "eval_samples_per_second": 111.054,
+      "eval_steps_per_second": 13.882,
+      "eval_wer": 0.9988304093567252,
+      "step": 14080
+    },
+    {
+      "epoch": 16.4775440591245,
+      "grad_norm": 3.0755059719085693,
+      "learning_rate": 2.9430460483519525e-05,
+      "loss": 0.1412,
+      "step": 14500
+    },
+    {
+      "epoch": 17.0,
+      "eval_cer": 1.0187885253674727,
+      "eval_loss": 0.03960481286048889,
+      "eval_runtime": 61.6801,
+      "eval_samples_per_second": 110.895,
+      "eval_steps_per_second": 13.862,
+      "eval_wer": 0.9988304093567252,
+      "step": 14960
+    },
+    {
+      "epoch": 17.045480386583286,
+      "grad_norm": 1.7888600826263428,
+      "learning_rate": 2.911222505012316e-05,
+      "loss": 0.1411,
+      "step": 15000
+    },
+    {
+      "epoch": 17.61398521887436,
+      "grad_norm": 5.4633941650390625,
+      "learning_rate": 2.872704189552075e-05,
+      "loss": 0.1391,
+      "step": 15500
+    },
+    {
+      "epoch": 18.0,
+      "eval_cer": 1.0194997629208156,
+      "eval_loss": 0.04934508726000786,
+      "eval_runtime": 60.3205,
+      "eval_samples_per_second": 113.394,
+      "eval_steps_per_second": 14.174,
+      "eval_wer": 0.9988304093567252,
+      "step": 15840
+    },
+    {
+      "epoch": 18.181921546333143,
+      "grad_norm": 4.8292951583862305,
+      "learning_rate": 2.8275217996094984e-05,
+      "loss": 0.1363,
+      "step": 16000
+    },
+    {
+      "epoch": 18.75042637862422,
+      "grad_norm": 1.6074540615081787,
+      "learning_rate": 2.775962831495378e-05,
+      "loss": 0.1325,
+      "step": 16500
+    },
+    {
+      "epoch": 19.0,
+      "eval_cer": 1.0185810810810811,
+      "eval_loss": 0.03655907139182091,
+      "eval_runtime": 60.6228,
+      "eval_samples_per_second": 112.829,
+      "eval_steps_per_second": 14.104,
+      "eval_wer": 0.9988304093567252,
+      "step": 16720
+    },
+    {
+      "epoch": 19.318362706083,
+      "grad_norm": 2.9544260501861572,
+      "learning_rate": 2.7182749420020325e-05,
+      "loss": 0.1243,
+      "step": 17000
+    },
+    {
+      "epoch": 19.886867538374077,
+      "grad_norm": 1.7803765535354614,
+      "learning_rate": 2.6547352273978724e-05,
+      "loss": 0.1242,
+      "step": 17500
+    },
+    {
+      "epoch": 20.0,
+      "eval_cer": 1.0178105737316263,
+      "eval_loss": 0.03915562480688095,
+      "eval_runtime": 63.37,
+      "eval_samples_per_second": 107.937,
+      "eval_steps_per_second": 13.492,
+      "eval_wer": 0.9988304093567252,
+      "step": 17600
+    },
+    {
+      "epoch": 20.454803865832858,
+      "grad_norm": 7.015552520751953,
+      "learning_rate": 2.5857923843413123e-05,
+      "loss": 0.122,
+      "step": 18000
+    },
+    {
+      "epoch": 21.0,
+      "eval_cer": 1.0192923186344238,
+      "eval_loss": 0.05453035235404968,
+      "eval_runtime": 62.1534,
+      "eval_samples_per_second": 110.05,
+      "eval_steps_per_second": 13.756,
+      "eval_wer": 0.9988304093567252,
+      "step": 18480
+    },
+    {
+      "epoch": 21.022740193291643,
+      "grad_norm": 0.5277901887893677,
+      "learning_rate": 2.511654911570264e-05,
+      "loss": 0.1154,
+      "step": 18500
+    },
+    {
+      "epoch": 21.59124502558272,
+      "grad_norm": 2.2439563274383545,
+      "learning_rate": 2.432514615070941e-05,
+      "loss": 0.1143,
+      "step": 19000
+    },
+    {
+      "epoch": 22.0,
+      "eval_cer": 1.0184625414888573,
+      "eval_loss": 0.04077836126089096,
+      "eval_runtime": 62.3438,
+      "eval_samples_per_second": 109.714,
+      "eval_steps_per_second": 13.714,
+      "eval_wer": 0.9988304093567252,
+      "step": 19360
+    },
+    {
+      "epoch": 22.1591813530415,
+      "grad_norm": 3.2656147480010986,
+      "learning_rate": 2.3488951059960833e-05,
+      "loss": 0.108,
+      "step": 19500
+    },
+    {
+      "epoch": 22.727686185332576,
+      "grad_norm": 1.6540584564208984,
+      "learning_rate": 2.261198039773451e-05,
+      "loss": 0.1087,
+      "step": 20000
+    },
+    {
+      "epoch": 23.0,
+      "eval_cer": 1.0176031294452348,
+      "eval_loss": 0.03096814453601837,
+      "eval_runtime": 61.14,
+      "eval_samples_per_second": 111.874,
+      "eval_steps_per_second": 13.984,
+      "eval_wer": 0.9988304093567252,
+      "step": 20240
+    },
+    {
+      "epoch": 23.295622512791358,
+      "grad_norm": 0.029715025797486305,
+      "learning_rate": 2.1698446578458188e-05,
+      "loss": 0.1011,
+      "step": 20500
+    },
+    {
+      "epoch": 23.864127345082434,
+      "grad_norm": 1.3068634271621704,
+      "learning_rate": 2.0752737642925386e-05,
+      "loss": 0.1013,
+      "step": 21000
+    },
+    {
+      "epoch": 24.0,
+      "eval_cer": 1.0165955429113325,
+      "eval_loss": 0.02615249529480934,
+      "eval_runtime": 60.7558,
+      "eval_samples_per_second": 112.582,
+      "eval_steps_per_second": 14.073,
+      "eval_wer": 0.9988304093567252,
+      "step": 21120
+    },
+    {
+      "epoch": 24.432063672541215,
+      "grad_norm": 2.296964168548584,
+      "learning_rate": 1.9779396180912585e-05,
+      "loss": 0.0952,
+      "step": 21500
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 0.6059958934783936,
+      "learning_rate": 1.8783097511440484e-05,
+      "loss": 0.0998,
+      "step": 22000
+    },
+    {
+      "epoch": 25.0,
+      "eval_cer": 1.0199442863916548,
+      "eval_loss": 0.0387667752802372,
+      "eval_runtime": 62.9295,
+      "eval_samples_per_second": 108.693,
+      "eval_steps_per_second": 13.587,
+      "eval_wer": 0.9988304093567252,
+      "step": 22000
+    },
+    {
+      "epoch": 25.568504832291076,
+      "grad_norm": 3.430413007736206,
+      "learning_rate": 1.777067107469613e-05,
+      "loss": 0.0903,
+      "step": 22500
+    },
+    {
+      "epoch": 26.0,
+      "eval_cer": 1.0166251778093884,
+      "eval_loss": 0.027963772416114807,
+      "eval_runtime": 62.2122,
+      "eval_samples_per_second": 109.946,
+      "eval_steps_per_second": 13.743,
+      "eval_wer": 0.9988304093567252,
+      "step": 22880
+    },
+    {
+      "epoch": 26.136441159749857,
+      "grad_norm": 3.037529706954956,
+      "learning_rate": 1.6742923736196817e-05,
+      "loss": 0.0867,
+      "step": 23000
+    },
+    {
+      "epoch": 26.704945992040933,
+      "grad_norm": 2.661895751953125,
+      "learning_rate": 1.5706804490393117e-05,
+      "loss": 0.088,
+      "step": 23500
+    },
+    {
+      "epoch": 27.0,
+      "eval_cer": 1.0197072072072073,
+      "eval_loss": 0.04922711104154587,
+      "eval_runtime": 68.8335,
+      "eval_samples_per_second": 99.37,
+      "eval_steps_per_second": 12.421,
+      "eval_wer": 0.9988304093567252,
+      "step": 23760
+    },
+    {
+      "epoch": 27.272882319499715,
+      "grad_norm": 2.580177068710327,
+      "learning_rate": 1.4667290201218887e-05,
+      "loss": 0.0874,
+      "step": 24000
+    },
+    {
+      "epoch": 27.84138715179079,
+      "grad_norm": 6.204455375671387,
+      "learning_rate": 1.3629374040256936e-05,
+      "loss": 0.0838,
+      "step": 24500
+    },
+    {
+      "epoch": 28.0,
+      "eval_cer": 1.0162991939307728,
+      "eval_loss": 0.02296304889023304,
+      "eval_runtime": 65.6917,
+      "eval_samples_per_second": 104.123,
+      "eval_steps_per_second": 13.015,
+      "eval_wer": 0.9988304093567252,
+      "step": 24640
+    },
+    {
+      "epoch": 28.409323479249572,
+      "grad_norm": 0.0685189813375473,
+      "learning_rate": 1.2600094296980161e-05,
+      "loss": 0.0826,
+      "step": 25000
+    },
+    {
+      "epoch": 28.977828311540648,
+      "grad_norm": 6.252466678619385,
+      "learning_rate": 1.1580271268352735e-05,
+      "loss": 0.079,
+      "step": 25500
+    },
+    {
+      "epoch": 29.0,
+      "eval_cer": 1.0169511616880038,
+      "eval_loss": 0.0281895250082016,
+      "eval_runtime": 61.0,
+      "eval_samples_per_second": 112.131,
+      "eval_steps_per_second": 14.016,
+      "eval_wer": 0.9988304093567252,
+      "step": 25520
+    },
+    {
+      "epoch": 29.545764638999433,
+      "grad_norm": 3.142706871032715,
+      "learning_rate": 1.0576874461569077e-05,
+      "loss": 0.0747,
+      "step": 26000
+    },
+    {
+      "epoch": 30.0,
+      "eval_cer": 1.016239924134661,
+      "eval_loss": 0.027105851098895073,
+      "eval_runtime": 59.5418,
+      "eval_samples_per_second": 114.877,
+      "eval_steps_per_second": 14.36,
+      "eval_wer": 0.9988304093567252,
+      "step": 26400
+    },
+    {
+      "epoch": 30.113700966458214,
+      "grad_norm": 3.5694313049316406,
+      "learning_rate": 9.594723562586447e-06,
+      "loss": 0.0774,
+      "step": 26500
+    },
+    {
+      "epoch": 30.68220579874929,
+      "grad_norm": 5.079456329345703,
+      "learning_rate": 8.640419592752059e-06,
+      "loss": 0.0692,
+      "step": 27000
+    },
+    {
+      "epoch": 31.0,
+      "eval_cer": 1.0166844476055001,
+      "eval_loss": 0.027171434834599495,
+      "eval_runtime": 59.3002,
+      "eval_samples_per_second": 115.345,
+      "eval_steps_per_second": 14.418,
+      "eval_wer": 0.9988304093567252,
+      "step": 27280
+    },
+    {
+      "epoch": 31.250142126208072,
+      "grad_norm": 2.114372730255127,
+      "learning_rate": 7.714723096178886e-06,
+      "loss": 0.0718,
+      "step": 27500
+    },
+    {
+      "epoch": 31.818646958499148,
+      "grad_norm": 3.835890531539917,
+      "learning_rate": 6.824020478947078e-06,
+      "loss": 0.0699,
+      "step": 28000
+    },
+    {
+      "epoch": 32.0,
+      "eval_cer": 1.0143432906590801,
+      "eval_loss": 0.0426531545817852,
+      "eval_runtime": 58.5893,
+      "eval_samples_per_second": 116.745,
+      "eval_steps_per_second": 14.593,
+      "eval_wer": 0.9988304093567252,
+      "step": 28160
+    },
+    {
+      "epoch": 32.38658328595793,
+      "grad_norm": 3.8743183612823486,
+      "learning_rate": 5.97259011514287e-06,
+      "loss": 0.0668,
+      "step": 28500
+    },
+    {
+      "epoch": 32.955088118249,
+      "grad_norm": 0.82483971118927,
+      "learning_rate": 5.164521739694928e-06,
+      "loss": 0.0652,
+      "step": 29000
+    },
+    {
+      "epoch": 33.0,
+      "eval_cer": 1.016151019440493,
+      "eval_loss": 0.032351747155189514,
+      "eval_runtime": 60.0164,
+      "eval_samples_per_second": 113.969,
+      "eval_steps_per_second": 14.246,
+      "eval_wer": 0.9988304093567252,
+      "step": 29040
+    },
+    {
+      "epoch": 33.52302444570779,
+      "grad_norm": 0.08226080983877182,
+      "learning_rate": 4.403696803864931e-06,
+      "loss": 0.0624,
+      "step": 29500
+    },
+    {
+      "epoch": 34.0,
+      "eval_cer": 1.0162991939307728,
+      "eval_loss": 0.03149048984050751,
+      "eval_runtime": 58.4368,
+      "eval_samples_per_second": 117.05,
+      "eval_steps_per_second": 14.631,
+      "eval_wer": 0.9988304093567252,
+      "step": 29920
+    },
+    {
+      "epoch": 34.09096077316657,
+      "grad_norm": 0.9844266176223755,
+      "learning_rate": 3.6951365800521325e-06,
+      "loss": 0.0618,
+      "step": 30000
+    },
+    {
+      "epoch": 34.65946560545765,
+      "grad_norm": 2.4211599826812744,
+      "learning_rate": 3.039405763913186e-06,
+      "loss": 0.0588,
+      "step": 30500
+    },
+    {
+      "epoch": 35.0,
+      "eval_cer": 1.0136913229018492,
+      "eval_loss": 0.054938483983278275,
+      "eval_runtime": 59.6299,
+      "eval_samples_per_second": 114.708,
+      "eval_steps_per_second": 14.338,
+      "eval_wer": 0.9988304093567252,
+      "step": 30800
+    },
+    {
+      "epoch": 35.22740193291643,
+      "grad_norm": 3.788679599761963,
+      "learning_rate": 2.4411261053725335e-06,
+      "loss": 0.059,
+      "step": 31000
+    },
+    {
+      "epoch": 35.795906765207505,
+      "grad_norm": 2.701200008392334,
+      "learning_rate": 1.904185301084242e-06,
+      "loss": 0.0594,
+      "step": 31500
+    },
+    {
+      "epoch": 36.0,
+      "eval_cer": 1.0141654812707444,
+      "eval_loss": 0.045684415847063065,
+      "eval_runtime": 60.0287,
+      "eval_samples_per_second": 113.945,
+      "eval_steps_per_second": 14.243,
+      "eval_wer": 0.9988304093567252,
+      "step": 31680
+    },
+    {
+      "epoch": 36.363843092666286,
+      "grad_norm": 0.22563552856445312,
+      "learning_rate": 1.4290112725289179e-06,
+      "loss": 0.0557,
+      "step": 32000
+    },
+    {
+      "epoch": 36.93234792495736,
+      "grad_norm": 3.3882081508636475,
+      "learning_rate": 1.0190237218990893e-06,
+      "loss": 0.0619,
+      "step": 32500
+    },
+    {
+      "epoch": 37.0,
+      "eval_cer": 1.014402560455192,
+      "eval_loss": 0.046258434653282166,
+      "eval_runtime": 58.5233,
+      "eval_samples_per_second": 116.876,
+      "eval_steps_per_second": 14.61,
+      "eval_wer": 0.9988304093567252,
+      "step": 32560
+    },
+    {
+      "epoch": 37.500284252416144,
+      "grad_norm": 4.180235385894775,
+      "learning_rate": 6.761919710294118e-07,
+      "loss": 0.058,
+      "step": 33000
+    },
+    {
+      "epoch": 38.0,
+      "eval_cer": 1.0126837363679468,
+      "eval_loss": 0.06653982400894165,
+      "eval_runtime": 59.3473,
+      "eval_samples_per_second": 115.254,
+      "eval_steps_per_second": 14.407,
+      "eval_wer": 0.9988304093567252,
+      "step": 33440
+    },
+    {
+      "epoch": 38.06822057987493,
+      "grad_norm": 0.7227972745895386,
+      "learning_rate": 4.021627676115197e-07,
+      "loss": 0.0579,
+      "step": 33500
+    },
+    {
+      "epoch": 38.636725412166,
+      "grad_norm": 0.30214107036590576,
+      "learning_rate": 1.9825237525585017e-07,
+      "loss": 0.059,
+      "step": 34000
+    },
+    {
+      "epoch": 39.0,
+      "eval_cer": 1.01309862494073,
+      "eval_loss": 0.05947383493185043,
+      "eval_runtime": 69.1876,
+      "eval_samples_per_second": 98.862,
+      "eval_steps_per_second": 12.358,
+      "eval_wer": 0.9988304093567252,
+      "step": 34320
+    },
+    {
+      "epoch": 39.20466173962479,
+      "grad_norm": 4.248073577880859,
+      "learning_rate": 6.544025099069761e-08,
+      "loss": 0.0539,
+      "step": 34500
+    },
+    {
+      "epoch": 39.77316657191586,
+      "grad_norm": 1.873940348625183,
+      "learning_rate": 4.364340567880043e-09,
+      "loss": 0.0563,
+      "step": 35000
+    },
+    {
+      "epoch": 39.955088118249,
+      "eval_cer": 1.013276434329066,
+      "eval_loss": 0.058061111718416214,
+      "eval_runtime": 61.3482,
+      "eval_samples_per_second": 111.495,
+      "eval_steps_per_second": 13.937,
+      "eval_wer": 0.9988304093567252,
+      "step": 35160
+    },
+    {
+      "epoch": 39.955088118249,
+      "step": 35160,
+      "total_flos": 1.8269796433195942e+19,
+      "train_loss": 1.1798896302406563,
+      "train_runtime": 28544.574,
+      "train_samples_per_second": 78.866,
+      "train_steps_per_second": 1.232
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 35160,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
+  "save_steps": 400,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.8269796433195942e+19,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}