Training in progress, step 23400, checkpoint

Browse files

Files changed (5) hide show

.gitattributes +1 -0
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +273 -3

.gitattributes CHANGED Viewed

@@ -34,3 +34,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/tokenizer.json filter=lfs diff=lfs merge=lfs -text

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9686c12fcd5e45c28b4b28976fa75f8def31281ef98c64003bfbb5e3fa400952
 size 3541119728

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e9f8625686c6ce45944c3c7217221b98c12500fd510b180766cf3eb372f4d89
 size 3541119728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2273236a215f1def6ae0d5527d0137d3d1c96315b946a27b75ad2e2e2c59c12e
 size 778374186

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac87b5de42a674db5c2561770c65f3648c44d74fcf8a74096cb07a141a2d371d
 size 778374186

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af919d8c4330d21092d0ab400e160dd9669e9eba0e00f29bd30c8ffd5b00b8cf
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff46be677348ca53ea6c6e13cd256f6d0b6ea2f784c9f0f6c43756f323fd9351
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1023634259535426,
   "eval_steps": 500,
-  "global_step": 23100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -20798,6 +20798,276 @@
       "mean_token_accuracy": 0.8887743890285492,
       "num_tokens": 38365222.0,
       "step": 23100
     }
   ],
   "logging_steps": 10,
@@ -20817,7 +21087,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.640620345734717e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.1166799890239683,
   "eval_steps": 500,
+  "global_step": 23400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.8887743890285492,
       "num_tokens": 38365222.0,
       "step": 23100
+    },
+    {
+      "epoch": 1.102840644722557,
+      "grad_norm": 0.37605273723602295,
+      "learning_rate": 8.972083035075162e-06,
+      "loss": 0.6587,
+      "mean_token_accuracy": 0.8744294509291649,
+      "num_tokens": 38381762.0,
+      "step": 23110
+    },
+    {
+      "epoch": 1.1033178634915712,
+      "grad_norm": 0.36323273181915283,
+      "learning_rate": 8.967310904318779e-06,
+      "loss": 0.5949,
+      "mean_token_accuracy": 0.883763587474823,
+      "num_tokens": 38397297.0,
+      "step": 23120
+    },
+    {
+      "epoch": 1.1037950822605853,
+      "grad_norm": 0.36709028482437134,
+      "learning_rate": 8.962538773562395e-06,
+      "loss": 0.6753,
+      "mean_token_accuracy": 0.8767507761716843,
+      "num_tokens": 38413052.0,
+      "step": 23130
+    },
+    {
+      "epoch": 1.1042723010295994,
+      "grad_norm": 0.36097216606140137,
+      "learning_rate": 8.957766642806014e-06,
+      "loss": 0.56,
+      "mean_token_accuracy": 0.8822339043021202,
+      "num_tokens": 38429063.0,
+      "step": 23140
+    },
+    {
+      "epoch": 1.1047495197986137,
+      "grad_norm": 0.3489522635936737,
+      "learning_rate": 8.95299451204963e-06,
+      "loss": 0.6324,
+      "mean_token_accuracy": 0.8755771458148957,
+      "num_tokens": 38446171.0,
+      "step": 23150
+    },
+    {
+      "epoch": 1.1052267385676278,
+      "grad_norm": 0.31116101145744324,
+      "learning_rate": 8.948222381293249e-06,
+      "loss": 0.7654,
+      "mean_token_accuracy": 0.8550684407353402,
+      "num_tokens": 38465354.0,
+      "step": 23160
+    },
+    {
+      "epoch": 1.105703957336642,
+      "grad_norm": 0.43474653363227844,
+      "learning_rate": 8.943450250536865e-06,
+      "loss": 0.7257,
+      "mean_token_accuracy": 0.8584754586219787,
+      "num_tokens": 38483004.0,
+      "step": 23170
+    },
+    {
+      "epoch": 1.1061811761056561,
+      "grad_norm": 0.330024391412735,
+      "learning_rate": 8.938678119780482e-06,
+      "loss": 0.6111,
+      "mean_token_accuracy": 0.8786431089043617,
+      "num_tokens": 38500479.0,
+      "step": 23180
+    },
+    {
+      "epoch": 1.1066583948746704,
+      "grad_norm": 0.3605097830295563,
+      "learning_rate": 8.9339059890241e-06,
+      "loss": 0.6118,
+      "mean_token_accuracy": 0.8718374699354172,
+      "num_tokens": 38516219.0,
+      "step": 23190
+    },
+    {
+      "epoch": 1.1071356136436845,
+      "grad_norm": 0.37876948714256287,
+      "learning_rate": 8.929133858267717e-06,
+      "loss": 0.5201,
+      "mean_token_accuracy": 0.8916581928730011,
+      "num_tokens": 38530884.0,
+      "step": 23200
+    },
+    {
+      "epoch": 1.1076128324126988,
+      "grad_norm": 0.41296443343162537,
+      "learning_rate": 8.924361727511335e-06,
+      "loss": 0.6266,
+      "mean_token_accuracy": 0.8670860260725022,
+      "num_tokens": 38547224.0,
+      "step": 23210
+    },
+    {
+      "epoch": 1.1080900511817129,
+      "grad_norm": 0.3719196021556854,
+      "learning_rate": 8.919589596754952e-06,
+      "loss": 0.5483,
+      "mean_token_accuracy": 0.8841874286532402,
+      "num_tokens": 38563138.0,
+      "step": 23220
+    },
+    {
+      "epoch": 1.1085672699507272,
+      "grad_norm": 0.34505724906921387,
+      "learning_rate": 8.914817465998569e-06,
+      "loss": 0.5962,
+      "mean_token_accuracy": 0.8823557212948799,
+      "num_tokens": 38579159.0,
+      "step": 23230
+    },
+    {
+      "epoch": 1.1090444887197413,
+      "grad_norm": 0.41858744621276855,
+      "learning_rate": 8.910045335242187e-06,
+      "loss": 0.6115,
+      "mean_token_accuracy": 0.8636498123407363,
+      "num_tokens": 38595874.0,
+      "step": 23240
+    },
+    {
+      "epoch": 1.1095217074887556,
+      "grad_norm": 0.37642261385917664,
+      "learning_rate": 8.905273204485804e-06,
+      "loss": 0.5512,
+      "mean_token_accuracy": 0.8865195542573929,
+      "num_tokens": 38613431.0,
+      "step": 23250
+    },
+    {
+      "epoch": 1.1099989262577696,
+      "grad_norm": 0.3944489061832428,
+      "learning_rate": 8.90050107372942e-06,
+      "loss": 0.5622,
+      "mean_token_accuracy": 0.8907116547226905,
+      "num_tokens": 38628954.0,
+      "step": 23260
+    },
+    {
+      "epoch": 1.110476145026784,
+      "grad_norm": 0.4231228232383728,
+      "learning_rate": 8.895728942973039e-06,
+      "loss": 0.5735,
+      "mean_token_accuracy": 0.883218166232109,
+      "num_tokens": 38644926.0,
+      "step": 23270
+    },
+    {
+      "epoch": 1.110953363795798,
+      "grad_norm": 0.4161708652973175,
+      "learning_rate": 8.890956812216655e-06,
+      "loss": 0.6235,
+      "mean_token_accuracy": 0.8809412658214569,
+      "num_tokens": 38661566.0,
+      "step": 23280
+    },
+    {
+      "epoch": 1.1114305825648123,
+      "grad_norm": 0.37831827998161316,
+      "learning_rate": 8.886184681460272e-06,
+      "loss": 0.6968,
+      "mean_token_accuracy": 0.8654580265283585,
+      "num_tokens": 38679443.0,
+      "step": 23290
+    },
+    {
+      "epoch": 1.1119078013338264,
+      "grad_norm": 0.42068058252334595,
+      "learning_rate": 8.881412550703889e-06,
+      "loss": 0.5489,
+      "mean_token_accuracy": 0.8919402092695237,
+      "num_tokens": 38696241.0,
+      "step": 23300
+    },
+    {
+      "epoch": 1.1123850201028407,
+      "grad_norm": 0.4387883245944977,
+      "learning_rate": 8.876640419947507e-06,
+      "loss": 0.5565,
+      "mean_token_accuracy": 0.8957258448004722,
+      "num_tokens": 38712179.0,
+      "step": 23310
+    },
+    {
+      "epoch": 1.1128622388718548,
+      "grad_norm": 0.43475064635276794,
+      "learning_rate": 8.871868289191124e-06,
+      "loss": 0.5857,
+      "mean_token_accuracy": 0.8815463319420814,
+      "num_tokens": 38728828.0,
+      "step": 23320
+    },
+    {
+      "epoch": 1.113339457640869,
+      "grad_norm": 0.3661762773990631,
+      "learning_rate": 8.867096158434742e-06,
+      "loss": 0.611,
+      "mean_token_accuracy": 0.8724078252911568,
+      "num_tokens": 38746266.0,
+      "step": 23330
+    },
+    {
+      "epoch": 1.1138166764098831,
+      "grad_norm": 0.38337260484695435,
+      "learning_rate": 8.862324027678359e-06,
+      "loss": 0.6629,
+      "mean_token_accuracy": 0.8663832738995552,
+      "num_tokens": 38764971.0,
+      "step": 23340
+    },
+    {
+      "epoch": 1.1142938951788974,
+      "grad_norm": 0.41741085052490234,
+      "learning_rate": 8.857551896921977e-06,
+      "loss": 0.6566,
+      "mean_token_accuracy": 0.8759171679615975,
+      "num_tokens": 38782014.0,
+      "step": 23350
+    },
+    {
+      "epoch": 1.1147711139479115,
+      "grad_norm": 0.373674601316452,
+      "learning_rate": 8.852779766165594e-06,
+      "loss": 0.6178,
+      "mean_token_accuracy": 0.8715434208512306,
+      "num_tokens": 38796852.0,
+      "step": 23360
+    },
+    {
+      "epoch": 1.1152483327169258,
+      "grad_norm": 0.364255428314209,
+      "learning_rate": 8.848007635409212e-06,
+      "loss": 0.6312,
+      "mean_token_accuracy": 0.8757534250617027,
+      "num_tokens": 38813756.0,
+      "step": 23370
+    },
+    {
+      "epoch": 1.1157255514859399,
+      "grad_norm": 0.4289257526397705,
+      "learning_rate": 8.843235504652829e-06,
+      "loss": 0.5704,
+      "mean_token_accuracy": 0.8797232627868652,
+      "num_tokens": 38830297.0,
+      "step": 23380
+    },
+    {
+      "epoch": 1.1162027702549542,
+      "grad_norm": 0.3604724407196045,
+      "learning_rate": 8.838463373896446e-06,
+      "loss": 0.6343,
+      "mean_token_accuracy": 0.8824995398521424,
+      "num_tokens": 38846122.0,
+      "step": 23390
+    },
+    {
+      "epoch": 1.1166799890239683,
+      "grad_norm": 0.4442988336086273,
+      "learning_rate": 8.833691243140062e-06,
+      "loss": 0.6179,
+      "mean_token_accuracy": 0.8732976973056793,
+      "num_tokens": 38862694.0,
+      "step": 23400
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8.752667987219743e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null