Training in progress, step 13800, checkpoint

Browse files

Files changed (5) hide show

.gitattributes +1 -0
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +273 -3

.gitattributes CHANGED Viewed

@@ -35,3 +35,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoint-13800/tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoint-13800/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/tokenizer.json filter=lfs diff=lfs merge=lfs -text

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28e221fe135396abdaf55d2a95d207fca21b83fb988a190060f0484696c218f4
 size 3541119728

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0a97ad14fc05d45b0bcdd00fe3398b94c48a3fba262343ce5b929ae2698e50d
 size 3541119728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ac0d16d2e2fc9dc907a07cfd5c8b852be59d3f0f52d6eb5733f16c2c8a60b45
 size 778374186

 version https://git-lfs.github.com/spec/v1
+oid sha256:daa42de180142ef371b2befa10b05a6c991d650216eca013dca907dc8c2a9a76
 size 778374186

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70bd8ff573da934b3deb2e9a2a6d5458d0bae248e930b9d724ab763e81dd21a3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d529b3ead19a0f7e903fee329286bdbb85e6ac6fdf18146d635bf8003ed8ece
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6442453381691502,
   "eval_steps": 500,
-  "global_step": 13500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12158,6 +12158,276 @@
       "mean_token_accuracy": 0.8752416774630547,
       "num_tokens": 22423922.0,
       "step": 13500
     }
   ],
   "logging_steps": 10,
@@ -12177,7 +12447,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.048330108480225e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6585619012395757,
   "eval_steps": 500,
+  "global_step": 13800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.8752416774630547,
       "num_tokens": 22423922.0,
       "step": 13500
+    },
+    {
+      "epoch": 0.6447225569381644,
+      "grad_norm": 0.4227236807346344,
+      "learning_rate": 1.3553328561202578e-05,
+      "loss": 0.7471,
+      "mean_token_accuracy": 0.8619314864277839,
+      "num_tokens": 22442654.0,
+      "step": 13510
+    },
+    {
+      "epoch": 0.6451997757071786,
+      "grad_norm": 0.4778737425804138,
+      "learning_rate": 1.3548556430446197e-05,
+      "loss": 0.6241,
+      "mean_token_accuracy": 0.8725541770458222,
+      "num_tokens": 22458565.0,
+      "step": 13520
+    },
+    {
+      "epoch": 0.6456769944761928,
+      "grad_norm": 0.3292141854763031,
+      "learning_rate": 1.3543784299689813e-05,
+      "loss": 0.6019,
+      "mean_token_accuracy": 0.8786483362317086,
+      "num_tokens": 22475131.0,
+      "step": 13530
+    },
+    {
+      "epoch": 0.6461542132452069,
+      "grad_norm": 0.3959347605705261,
+      "learning_rate": 1.353901216893343e-05,
+      "loss": 0.5363,
+      "mean_token_accuracy": 0.8921607866883278,
+      "num_tokens": 22490344.0,
+      "step": 13540
+    },
+    {
+      "epoch": 0.6466314320142211,
+      "grad_norm": 0.3481472134590149,
+      "learning_rate": 1.3534240038177047e-05,
+      "loss": 0.608,
+      "mean_token_accuracy": 0.8803831622004509,
+      "num_tokens": 22505993.0,
+      "step": 13550
+    },
+    {
+      "epoch": 0.6471086507832353,
+      "grad_norm": 0.3353317081928253,
+      "learning_rate": 1.3529467907420663e-05,
+      "loss": 0.6797,
+      "mean_token_accuracy": 0.8620204761624336,
+      "num_tokens": 22523092.0,
+      "step": 13560
+    },
+    {
+      "epoch": 0.6475858695522495,
+      "grad_norm": 0.33590102195739746,
+      "learning_rate": 1.3524695776664283e-05,
+      "loss": 0.6826,
+      "mean_token_accuracy": 0.8625424951314926,
+      "num_tokens": 22540022.0,
+      "step": 13570
+    },
+    {
+      "epoch": 0.6480630883212637,
+      "grad_norm": 0.3883362412452698,
+      "learning_rate": 1.35199236459079e-05,
+      "loss": 0.7065,
+      "mean_token_accuracy": 0.8587613448500633,
+      "num_tokens": 22557276.0,
+      "step": 13580
+    },
+    {
+      "epoch": 0.6485403070902779,
+      "grad_norm": 0.329208642244339,
+      "learning_rate": 1.3515151515151517e-05,
+      "loss": 0.6851,
+      "mean_token_accuracy": 0.8579544991254806,
+      "num_tokens": 22575264.0,
+      "step": 13590
+    },
+    {
+      "epoch": 0.6490175258592921,
+      "grad_norm": 0.3257433772087097,
+      "learning_rate": 1.3510379384395133e-05,
+      "loss": 0.6501,
+      "mean_token_accuracy": 0.8753771096467972,
+      "num_tokens": 22592298.0,
+      "step": 13600
+    },
+    {
+      "epoch": 0.6494947446283063,
+      "grad_norm": 0.319042444229126,
+      "learning_rate": 1.350560725363875e-05,
+      "loss": 0.6453,
+      "mean_token_accuracy": 0.8721793726086616,
+      "num_tokens": 22609547.0,
+      "step": 13610
+    },
+    {
+      "epoch": 0.6499719633973204,
+      "grad_norm": 0.34079188108444214,
+      "learning_rate": 1.3500835122882368e-05,
+      "loss": 0.7824,
+      "mean_token_accuracy": 0.8555491074919701,
+      "num_tokens": 22628228.0,
+      "step": 13620
+    },
+    {
+      "epoch": 0.6504491821663346,
+      "grad_norm": 0.45218825340270996,
+      "learning_rate": 1.3496062992125985e-05,
+      "loss": 0.634,
+      "mean_token_accuracy": 0.8678511619567871,
+      "num_tokens": 22643854.0,
+      "step": 13630
+    },
+    {
+      "epoch": 0.6509264009353488,
+      "grad_norm": 0.2865401804447174,
+      "learning_rate": 1.3491290861369603e-05,
+      "loss": 0.6747,
+      "mean_token_accuracy": 0.8544631570577621,
+      "num_tokens": 22661164.0,
+      "step": 13640
+    },
+    {
+      "epoch": 0.651403619704363,
+      "grad_norm": 0.4217221736907959,
+      "learning_rate": 1.348651873061322e-05,
+      "loss": 0.5285,
+      "mean_token_accuracy": 0.8921225979924202,
+      "num_tokens": 22676050.0,
+      "step": 13650
+    },
+    {
+      "epoch": 0.6518808384733772,
+      "grad_norm": 0.4127669334411621,
+      "learning_rate": 1.3481746599856837e-05,
+      "loss": 0.5793,
+      "mean_token_accuracy": 0.886702474951744,
+      "num_tokens": 22691960.0,
+      "step": 13660
+    },
+    {
+      "epoch": 0.6523580572423914,
+      "grad_norm": 0.3422595262527466,
+      "learning_rate": 1.3476974469100455e-05,
+      "loss": 0.6475,
+      "mean_token_accuracy": 0.8713901385664939,
+      "num_tokens": 22707891.0,
+      "step": 13670
+    },
+    {
+      "epoch": 0.6528352760114056,
+      "grad_norm": 0.4279707372188568,
+      "learning_rate": 1.3472202338344072e-05,
+      "loss": 0.7561,
+      "mean_token_accuracy": 0.8528080299496651,
+      "num_tokens": 22726155.0,
+      "step": 13680
+    },
+    {
+      "epoch": 0.6533124947804198,
+      "grad_norm": 0.3606453239917755,
+      "learning_rate": 1.3467430207587688e-05,
+      "loss": 0.7429,
+      "mean_token_accuracy": 0.864837720990181,
+      "num_tokens": 22744235.0,
+      "step": 13690
+    },
+    {
+      "epoch": 0.6537897135494339,
+      "grad_norm": 0.38309189677238464,
+      "learning_rate": 1.3462658076831305e-05,
+      "loss": 0.6402,
+      "mean_token_accuracy": 0.8674290254712105,
+      "num_tokens": 22760300.0,
+      "step": 13700
+    },
+    {
+      "epoch": 0.6542669323184481,
+      "grad_norm": 0.30889174342155457,
+      "learning_rate": 1.3457885946074925e-05,
+      "loss": 0.7359,
+      "mean_token_accuracy": 0.8531943425536156,
+      "num_tokens": 22778164.0,
+      "step": 13710
+    },
+    {
+      "epoch": 0.6547441510874623,
+      "grad_norm": 0.3210035264492035,
+      "learning_rate": 1.3453113815318542e-05,
+      "loss": 0.5691,
+      "mean_token_accuracy": 0.892583754658699,
+      "num_tokens": 22792570.0,
+      "step": 13720
+    },
+    {
+      "epoch": 0.6552213698564765,
+      "grad_norm": 0.2989923357963562,
+      "learning_rate": 1.3448341684562158e-05,
+      "loss": 0.5318,
+      "mean_token_accuracy": 0.8902983129024505,
+      "num_tokens": 22807960.0,
+      "step": 13730
+    },
+    {
+      "epoch": 0.6556985886254907,
+      "grad_norm": 0.381619393825531,
+      "learning_rate": 1.3443569553805775e-05,
+      "loss": 0.717,
+      "mean_token_accuracy": 0.8556675240397453,
+      "num_tokens": 22826319.0,
+      "step": 13740
+    },
+    {
+      "epoch": 0.6561758073945049,
+      "grad_norm": 0.33662042021751404,
+      "learning_rate": 1.3438797423049392e-05,
+      "loss": 0.6839,
+      "mean_token_accuracy": 0.8628215402364731,
+      "num_tokens": 22843310.0,
+      "step": 13750
+    },
+    {
+      "epoch": 0.6566530261635191,
+      "grad_norm": 0.30493494868278503,
+      "learning_rate": 1.3434025292293008e-05,
+      "loss": 0.5978,
+      "mean_token_accuracy": 0.8812342941761017,
+      "num_tokens": 22858101.0,
+      "step": 13760
+    },
+    {
+      "epoch": 0.6571302449325332,
+      "grad_norm": 0.4126700460910797,
+      "learning_rate": 1.3429253161536627e-05,
+      "loss": 0.652,
+      "mean_token_accuracy": 0.8751346081495285,
+      "num_tokens": 22874216.0,
+      "step": 13770
+    },
+    {
+      "epoch": 0.6576074637015474,
+      "grad_norm": 0.3574364185333252,
+      "learning_rate": 1.3424481030780245e-05,
+      "loss": 0.6295,
+      "mean_token_accuracy": 0.8706316411495209,
+      "num_tokens": 22889521.0,
+      "step": 13780
+    },
+    {
+      "epoch": 0.6580846824705616,
+      "grad_norm": 0.4885793924331665,
+      "learning_rate": 1.3419708900023862e-05,
+      "loss": 0.5987,
+      "mean_token_accuracy": 0.8812028467655182,
+      "num_tokens": 22907349.0,
+      "step": 13790
+    },
+    {
+      "epoch": 0.6585619012395757,
+      "grad_norm": 0.33491700887680054,
+      "learning_rate": 1.3414936769267479e-05,
+      "loss": 0.6659,
+      "mean_token_accuracy": 0.8643362104892731,
+      "num_tokens": 22924082.0,
+      "step": 13800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.161398467590963e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null