Training in progress, step 17700, checkpoint

Browse files

Files changed (5) hide show

.gitattributes +1 -0
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +273 -3

.gitattributes CHANGED Viewed

@@ -35,3 +35,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoint-17700/tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoint-17700/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/tokenizer.json filter=lfs diff=lfs merge=lfs -text

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5c0bed417727b47dfe87f4a2dbc478f72a9c6b96d025389d880eed0a3a0bbe0
 size 3541119728

 version https://git-lfs.github.com/spec/v1
+oid sha256:f673fbf3d293bdfb7083302f95a085b1c3809362d73ae1feb5db6ae0ec6a3e7e
 size 3541119728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6388103df9e21c5d7a3129f6c1bffb0f061a5bcc8ed8465bd5cf24ea58134137
 size 778374186

 version https://git-lfs.github.com/spec/v1
+oid sha256:a085a3464ee030b3211908f350dc686f7d0f79f38846fc7e1d9c5bc49537c610
 size 778374186

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a179e154338cc3e961746fd3accae1a74ef0e23861aa2e20120545743c22ada
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:390ed221cdfff0759c038f9f9dc672e97ebfcc32b38cca4add3a81bbe314fc8b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8303606580846825,
   "eval_steps": 500,
-  "global_step": 17400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -15668,6 +15668,276 @@
       "mean_token_accuracy": 0.8778254583477973,
       "num_tokens": 28906983.0,
       "step": 17400
     }
   ],
   "logging_steps": 10,
@@ -15687,7 +15957,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.509385037989028e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.844677221155108,
   "eval_steps": 500,
+  "global_step": 17700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.8778254583477973,
       "num_tokens": 28906983.0,
       "step": 17400
+    },
+    {
+      "epoch": 0.8308378768536967,
+      "grad_norm": 0.4296000599861145,
+      "learning_rate": 1.1692197566213315e-05,
+      "loss": 0.7167,
+      "mean_token_accuracy": 0.8584795027971268,
+      "num_tokens": 28924631.0,
+      "step": 17410
+    },
+    {
+      "epoch": 0.8313150956227109,
+      "grad_norm": 0.35790425539016724,
+      "learning_rate": 1.1687425435456932e-05,
+      "loss": 0.6852,
+      "mean_token_accuracy": 0.8608928889036178,
+      "num_tokens": 28943848.0,
+      "step": 17420
+    },
+    {
+      "epoch": 0.8317923143917251,
+      "grad_norm": 0.35815557837486267,
+      "learning_rate": 1.168265330470055e-05,
+      "loss": 0.5988,
+      "mean_token_accuracy": 0.8806958973407746,
+      "num_tokens": 28960033.0,
+      "step": 17430
+    },
+    {
+      "epoch": 0.8322695331607393,
+      "grad_norm": 0.41242972016334534,
+      "learning_rate": 1.1677881173944167e-05,
+      "loss": 0.7573,
+      "mean_token_accuracy": 0.8531021654605866,
+      "num_tokens": 28978291.0,
+      "step": 17440
+    },
+    {
+      "epoch": 0.8327467519297534,
+      "grad_norm": 0.3900233805179596,
+      "learning_rate": 1.1673109043187785e-05,
+      "loss": 0.6684,
+      "mean_token_accuracy": 0.8653559580445289,
+      "num_tokens": 28995166.0,
+      "step": 17450
+    },
+    {
+      "epoch": 0.8332239706987676,
+      "grad_norm": 0.3421511948108673,
+      "learning_rate": 1.1668336912431402e-05,
+      "loss": 0.5933,
+      "mean_token_accuracy": 0.8817808702588081,
+      "num_tokens": 29011537.0,
+      "step": 17460
+    },
+    {
+      "epoch": 0.8337011894677818,
+      "grad_norm": 0.3471275269985199,
+      "learning_rate": 1.1663564781675019e-05,
+      "loss": 0.6444,
+      "mean_token_accuracy": 0.8728347107768059,
+      "num_tokens": 29029323.0,
+      "step": 17470
+    },
+    {
+      "epoch": 0.8341784082367959,
+      "grad_norm": 0.4366353750228882,
+      "learning_rate": 1.1658792650918635e-05,
+      "loss": 0.6836,
+      "mean_token_accuracy": 0.8620174437761307,
+      "num_tokens": 29048157.0,
+      "step": 17480
+    },
+    {
+      "epoch": 0.8346556270058101,
+      "grad_norm": 0.3484688997268677,
+      "learning_rate": 1.1654020520162252e-05,
+      "loss": 0.6891,
+      "mean_token_accuracy": 0.8628757908940315,
+      "num_tokens": 29064710.0,
+      "step": 17490
+    },
+    {
+      "epoch": 0.8351328457748243,
+      "grad_norm": 0.3586483597755432,
+      "learning_rate": 1.1649248389405872e-05,
+      "loss": 0.6487,
+      "mean_token_accuracy": 0.8712560385465622,
+      "num_tokens": 29081864.0,
+      "step": 17500
+    },
+    {
+      "epoch": 0.8356100645438385,
+      "grad_norm": 0.35695043206214905,
+      "learning_rate": 1.1644476258649489e-05,
+      "loss": 0.652,
+      "mean_token_accuracy": 0.8665311306715011,
+      "num_tokens": 29098008.0,
+      "step": 17510
+    },
+    {
+      "epoch": 0.8360872833128526,
+      "grad_norm": 0.35384443402290344,
+      "learning_rate": 1.1639704127893106e-05,
+      "loss": 0.6137,
+      "mean_token_accuracy": 0.8707799568772316,
+      "num_tokens": 29114025.0,
+      "step": 17520
+    },
+    {
+      "epoch": 0.8365645020818668,
+      "grad_norm": 0.4258424639701843,
+      "learning_rate": 1.1634931997136722e-05,
+      "loss": 0.446,
+      "mean_token_accuracy": 0.9021103799343109,
+      "num_tokens": 29127980.0,
+      "step": 17530
+    },
+    {
+      "epoch": 0.837041720850881,
+      "grad_norm": 0.4185291826725006,
+      "learning_rate": 1.1630159866380339e-05,
+      "loss": 0.7187,
+      "mean_token_accuracy": 0.8666620507836342,
+      "num_tokens": 29145781.0,
+      "step": 17540
+    },
+    {
+      "epoch": 0.8375189396198952,
+      "grad_norm": 0.3698226511478424,
+      "learning_rate": 1.1625387735623956e-05,
+      "loss": 0.8038,
+      "mean_token_accuracy": 0.83167435079813,
+      "num_tokens": 29164539.0,
+      "step": 17550
+    },
+    {
+      "epoch": 0.8379961583889094,
+      "grad_norm": 0.5082905888557434,
+      "learning_rate": 1.1620615604867574e-05,
+      "loss": 0.6794,
+      "mean_token_accuracy": 0.8646394088864326,
+      "num_tokens": 29181392.0,
+      "step": 17560
+    },
+    {
+      "epoch": 0.8384733771579236,
+      "grad_norm": 0.419879287481308,
+      "learning_rate": 1.1615843474111192e-05,
+      "loss": 0.748,
+      "mean_token_accuracy": 0.8569721296429634,
+      "num_tokens": 29198880.0,
+      "step": 17570
+    },
+    {
+      "epoch": 0.8389505959269378,
+      "grad_norm": 0.3323199450969696,
+      "learning_rate": 1.1611071343354809e-05,
+      "loss": 0.6364,
+      "mean_token_accuracy": 0.8711786776781082,
+      "num_tokens": 29215341.0,
+      "step": 17580
+    },
+    {
+      "epoch": 0.839427814695952,
+      "grad_norm": 0.35589149594306946,
+      "learning_rate": 1.1606299212598426e-05,
+      "loss": 0.5241,
+      "mean_token_accuracy": 0.886940547823906,
+      "num_tokens": 29230599.0,
+      "step": 17590
+    },
+    {
+      "epoch": 0.8399050334649661,
+      "grad_norm": 0.3645700216293335,
+      "learning_rate": 1.1601527081842044e-05,
+      "loss": 0.6459,
+      "mean_token_accuracy": 0.8628365308046341,
+      "num_tokens": 29247686.0,
+      "step": 17600
+    },
+    {
+      "epoch": 0.8403822522339803,
+      "grad_norm": 0.4367329180240631,
+      "learning_rate": 1.159675495108566e-05,
+      "loss": 0.5824,
+      "mean_token_accuracy": 0.8813767299056053,
+      "num_tokens": 29263208.0,
+      "step": 17610
+    },
+    {
+      "epoch": 0.8408594710029945,
+      "grad_norm": 0.4404272139072418,
+      "learning_rate": 1.1591982820329277e-05,
+      "loss": 0.7341,
+      "mean_token_accuracy": 0.861807630956173,
+      "num_tokens": 29282037.0,
+      "step": 17620
+    },
+    {
+      "epoch": 0.8413366897720087,
+      "grad_norm": 0.32958847284317017,
+      "learning_rate": 1.1587210689572894e-05,
+      "loss": 0.5831,
+      "mean_token_accuracy": 0.8764279022812843,
+      "num_tokens": 29297330.0,
+      "step": 17630
+    },
+    {
+      "epoch": 0.8418139085410229,
+      "grad_norm": 0.3422182500362396,
+      "learning_rate": 1.1582438558816514e-05,
+      "loss": 0.7288,
+      "mean_token_accuracy": 0.8610541269183158,
+      "num_tokens": 29314275.0,
+      "step": 17640
+    },
+    {
+      "epoch": 0.8422911273100371,
+      "grad_norm": 0.3618062138557434,
+      "learning_rate": 1.157766642806013e-05,
+      "loss": 0.8217,
+      "mean_token_accuracy": 0.8382393896579743,
+      "num_tokens": 29334784.0,
+      "step": 17650
+    },
+    {
+      "epoch": 0.8427683460790513,
+      "grad_norm": 0.3208582103252411,
+      "learning_rate": 1.1572894297303747e-05,
+      "loss": 0.6157,
+      "mean_token_accuracy": 0.8792721211910248,
+      "num_tokens": 29351815.0,
+      "step": 17660
+    },
+    {
+      "epoch": 0.8432455648480655,
+      "grad_norm": 0.38699203729629517,
+      "learning_rate": 1.1568122166547364e-05,
+      "loss": 0.5618,
+      "mean_token_accuracy": 0.8911767050623893,
+      "num_tokens": 29366991.0,
+      "step": 17670
+    },
+    {
+      "epoch": 0.8437227836170796,
+      "grad_norm": 0.36298489570617676,
+      "learning_rate": 1.156335003579098e-05,
+      "loss": 0.7076,
+      "mean_token_accuracy": 0.8556164249777793,
+      "num_tokens": 29384444.0,
+      "step": 17680
+    },
+    {
+      "epoch": 0.8442000023860938,
+      "grad_norm": 0.32522013783454895,
+      "learning_rate": 1.1558577905034597e-05,
+      "loss": 0.6395,
+      "mean_token_accuracy": 0.87257649153471,
+      "num_tokens": 29401037.0,
+      "step": 17690
+    },
+    {
+      "epoch": 0.844677221155108,
+      "grad_norm": 0.36789947748184204,
+      "learning_rate": 1.1553805774278218e-05,
+      "loss": 0.6614,
+      "mean_token_accuracy": 0.8719203874468804,
+      "num_tokens": 29418205.0,
+      "step": 17700
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.62507884939518e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null