Training in progress, step 400, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +364 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22a8cb13c4941f8c5f59be18b7d30ac4a91062b85a05c6be675417d975c94d19
 size 912336848

 version https://git-lfs.github.com/spec/v1
+oid sha256:4feadb4d4726453ced00baff7f8755b23038ae00a6fc7ed775ca870e90aac44c
 size 912336848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae511e7d01d8f9f005ec7b27688bf1022fdb13432005ba4d5cac46bb49cbbac1
 size 463916756

 version https://git-lfs.github.com/spec/v1
+oid sha256:325484624c113255d6fcd1ca65d31e8fb81b435ce4111649fb1d64abbe20f90b
 size 463916756

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23b99a86645be7525452254f25959112a65303856a607f91e4257ebe7bc73475
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:362e47c2de7acde16f26440a1dd2e599682b3e0b6d29d1c7656378fc70bc3582
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9096f15f02bac6b0fc27aa7aa4986f85d87d53fca310a75657e0015357af5c5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:705cabf5cbc3a6ab0feb67c77b9b453d59efcc939ce90d310af96e621810f990
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.1287500858306885,
-  "best_model_checkpoint": "miner_id_24/checkpoint-350",
-  "epoch": 0.045906154703741354,
   "eval_steps": 50,
-  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2521,6 +2521,364 @@
       "eval_samples_per_second": 9.124,
       "eval_steps_per_second": 2.281,
       "step": 350
     }
   ],
   "logging_steps": 1,
@@ -2544,12 +2902,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 8.163801154820506e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.1277720928192139,
+  "best_model_checkpoint": "miner_id_24/checkpoint-400",
+  "epoch": 0.05246417680427583,
   "eval_steps": 50,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.124,
       "eval_steps_per_second": 2.281,
       "step": 350
+    },
+    {
+      "epoch": 0.046037315145752045,
+      "grad_norm": 5.140265941619873,
+      "learning_rate": 3.844650207332562e-06,
+      "loss": 4.3227,
+      "step": 351
+    },
+    {
+      "epoch": 0.04616847558776273,
+      "grad_norm": 6.707720756530762,
+      "learning_rate": 3.691267552111183e-06,
+      "loss": 4.6609,
+      "step": 352
+    },
+    {
+      "epoch": 0.04629963602977342,
+      "grad_norm": 5.356660842895508,
+      "learning_rate": 3.54088980417534e-06,
+      "loss": 3.4274,
+      "step": 353
+    },
+    {
+      "epoch": 0.04643079647178411,
+      "grad_norm": 7.524355411529541,
+      "learning_rate": 3.393526721321616e-06,
+      "loss": 5.1434,
+      "step": 354
+    },
+    {
+      "epoch": 0.0465619569137948,
+      "grad_norm": 5.19027853012085,
+      "learning_rate": 3.249187865729264e-06,
+      "loss": 5.197,
+      "step": 355
+    },
+    {
+      "epoch": 0.04669311735580549,
+      "grad_norm": 5.148890495300293,
+      "learning_rate": 3.1078826033397843e-06,
+      "loss": 4.8595,
+      "step": 356
+    },
+    {
+      "epoch": 0.04682427779781618,
+      "grad_norm": 5.493198871612549,
+      "learning_rate": 2.9696201032491434e-06,
+      "loss": 5.4618,
+      "step": 357
+    },
+    {
+      "epoch": 0.04695543823982687,
+      "grad_norm": 5.00316047668457,
+      "learning_rate": 2.8344093371128424e-06,
+      "loss": 5.0668,
+      "step": 358
+    },
+    {
+      "epoch": 0.04708659868183756,
+      "grad_norm": 5.573131561279297,
+      "learning_rate": 2.70225907856374e-06,
+      "loss": 5.0508,
+      "step": 359
+    },
+    {
+      "epoch": 0.04721775912384825,
+      "grad_norm": 5.1936445236206055,
+      "learning_rate": 2.573177902642726e-06,
+      "loss": 4.8463,
+      "step": 360
+    },
+    {
+      "epoch": 0.04734891956585894,
+      "grad_norm": 4.364546775817871,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 3.793,
+      "step": 361
+    },
+    {
+      "epoch": 0.04748008000786963,
+      "grad_norm": 5.471181869506836,
+      "learning_rate": 2.324256102563188e-06,
+      "loss": 5.1693,
+      "step": 362
+    },
+    {
+      "epoch": 0.04761124044988031,
+      "grad_norm": 5.010382652282715,
+      "learning_rate": 2.204431630583548e-06,
+      "loss": 4.9004,
+      "step": 363
+    },
+    {
+      "epoch": 0.047742400891891,
+      "grad_norm": 4.85847282409668,
+      "learning_rate": 2.087708544541689e-06,
+      "loss": 4.4192,
+      "step": 364
+    },
+    {
+      "epoch": 0.04787356133390169,
+      "grad_norm": 5.345099449157715,
+      "learning_rate": 1.974094418431388e-06,
+      "loss": 5.2131,
+      "step": 365
+    },
+    {
+      "epoch": 0.04800472177591238,
+      "grad_norm": 4.957890510559082,
+      "learning_rate": 1.8635966245104664e-06,
+      "loss": 4.1427,
+      "step": 366
+    },
+    {
+      "epoch": 0.04813588221792307,
+      "grad_norm": 4.937714576721191,
+      "learning_rate": 1.7562223328224325e-06,
+      "loss": 5.3561,
+      "step": 367
+    },
+    {
+      "epoch": 0.048267042659933763,
+      "grad_norm": 4.839054107666016,
+      "learning_rate": 1.6519785107311891e-06,
+      "loss": 5.1806,
+      "step": 368
+    },
+    {
+      "epoch": 0.048398203101944454,
+      "grad_norm": 4.0047125816345215,
+      "learning_rate": 1.5508719224689717e-06,
+      "loss": 3.1723,
+      "step": 369
+    },
+    {
+      "epoch": 0.048529363543955144,
+      "grad_norm": 4.515138149261475,
+      "learning_rate": 1.4529091286973995e-06,
+      "loss": 4.2818,
+      "step": 370
+    },
+    {
+      "epoch": 0.048660523985965834,
+      "grad_norm": 6.000913143157959,
+      "learning_rate": 1.358096486081778e-06,
+      "loss": 5.1559,
+      "step": 371
+    },
+    {
+      "epoch": 0.048791684427976524,
+      "grad_norm": 4.692879676818848,
+      "learning_rate": 1.2664401468786114e-06,
+      "loss": 4.0442,
+      "step": 372
+    },
+    {
+      "epoch": 0.048922844869987214,
+      "grad_norm": 5.064847469329834,
+      "learning_rate": 1.1779460585363944e-06,
+      "loss": 4.7256,
+      "step": 373
+    },
+    {
+      "epoch": 0.049054005311997904,
+      "grad_norm": 4.467818737030029,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 3.663,
+      "step": 374
+    },
+    {
+      "epoch": 0.04918516575400859,
+      "grad_norm": 4.501063346862793,
+      "learning_rate": 1.0104673978866164e-06,
+      "loss": 3.9832,
+      "step": 375
+    },
+    {
+      "epoch": 0.04931632619601928,
+      "grad_norm": 4.678268909454346,
+      "learning_rate": 9.314936930293283e-07,
+      "loss": 4.7532,
+      "step": 376
+    },
+    {
+      "epoch": 0.04944748663802997,
+      "grad_norm": 5.101086139678955,
+      "learning_rate": 8.557039732283944e-07,
+      "loss": 4.8174,
+      "step": 377
+    },
+    {
+      "epoch": 0.04957864708004066,
+      "grad_norm": 5.273630619049072,
+      "learning_rate": 7.83103156370113e-07,
+      "loss": 4.7382,
+      "step": 378
+    },
+    {
+      "epoch": 0.04970980752205135,
+      "grad_norm": 5.220170021057129,
+      "learning_rate": 7.136959534174592e-07,
+      "loss": 4.698,
+      "step": 379
+    },
+    {
+      "epoch": 0.04984096796406204,
+      "grad_norm": 5.036807060241699,
+      "learning_rate": 6.474868681043578e-07,
+      "loss": 4.5976,
+      "step": 380
+    },
+    {
+      "epoch": 0.04997212840607273,
+      "grad_norm": 4.504627227783203,
+      "learning_rate": 5.844801966434832e-07,
+      "loss": 4.5327,
+      "step": 381
+    },
+    {
+      "epoch": 0.05010328884808342,
+      "grad_norm": 4.356201171875,
+      "learning_rate": 5.246800274474439e-07,
+      "loss": 3.5973,
+      "step": 382
+    },
+    {
+      "epoch": 0.05023444929009411,
+      "grad_norm": 5.346609115600586,
+      "learning_rate": 4.680902408635335e-07,
+      "loss": 4.875,
+      "step": 383
+    },
+    {
+      "epoch": 0.0503656097321048,
+      "grad_norm": 5.064549922943115,
+      "learning_rate": 4.1471450892189846e-07,
+      "loss": 4.2594,
+      "step": 384
+    },
+    {
+      "epoch": 0.05049677017411549,
+      "grad_norm": 4.970938682556152,
+      "learning_rate": 3.6455629509730136e-07,
+      "loss": 3.9898,
+      "step": 385
+    },
+    {
+      "epoch": 0.05062793061612618,
+      "grad_norm": 5.116177558898926,
+      "learning_rate": 3.1761885408435054e-07,
+      "loss": 4.6729,
+      "step": 386
+    },
+    {
+      "epoch": 0.05075909105813686,
+      "grad_norm": 5.475071430206299,
+      "learning_rate": 2.7390523158633554e-07,
+      "loss": 4.7819,
+      "step": 387
+    },
+    {
+      "epoch": 0.05089025150014755,
+      "grad_norm": 4.805976867675781,
+      "learning_rate": 2.334182641175686e-07,
+      "loss": 3.8706,
+      "step": 388
+    },
+    {
+      "epoch": 0.05102141194215824,
+      "grad_norm": 4.332062244415283,
+      "learning_rate": 1.9616057881935436e-07,
+      "loss": 3.8248,
+      "step": 389
+    },
+    {
+      "epoch": 0.05115257238416893,
+      "grad_norm": 4.954031467437744,
+      "learning_rate": 1.6213459328950352e-07,
+      "loss": 5.2018,
+      "step": 390
+    },
+    {
+      "epoch": 0.05128373282617962,
+      "grad_norm": 4.604966640472412,
+      "learning_rate": 1.3134251542544774e-07,
+      "loss": 4.6051,
+      "step": 391
+    },
+    {
+      "epoch": 0.05141489326819031,
+      "grad_norm": 4.851329326629639,
+      "learning_rate": 1.0378634328099269e-07,
+      "loss": 4.3145,
+      "step": 392
+    },
+    {
+      "epoch": 0.051546053710201004,
+      "grad_norm": 5.1879472732543945,
+      "learning_rate": 7.946786493666647e-08,
+      "loss": 4.8583,
+      "step": 393
+    },
+    {
+      "epoch": 0.051677214152211694,
+      "grad_norm": 5.018433570861816,
+      "learning_rate": 5.838865838366792e-08,
+      "loss": 4.5414,
+      "step": 394
+    },
+    {
+      "epoch": 0.051808374594222384,
+      "grad_norm": 5.026413917541504,
+      "learning_rate": 4.055009142152067e-08,
+      "loss": 4.0066,
+      "step": 395
+    },
+    {
+      "epoch": 0.051939535036233074,
+      "grad_norm": 4.616211891174316,
+      "learning_rate": 2.595332156925534e-08,
+      "loss": 4.3401,
+      "step": 396
+    },
+    {
+      "epoch": 0.052070695478243764,
+      "grad_norm": 6.025474548339844,
+      "learning_rate": 1.4599295990352924e-08,
+      "loss": 5.0094,
+      "step": 397
+    },
+    {
+      "epoch": 0.052201855920254454,
+      "grad_norm": 4.974755764007568,
+      "learning_rate": 6.488751431266149e-09,
+      "loss": 4.0098,
+      "step": 398
+    },
+    {
+      "epoch": 0.05233301636226514,
+      "grad_norm": 7.891817569732666,
+      "learning_rate": 1.622214173602199e-09,
+      "loss": 4.4289,
+      "step": 399
+    },
+    {
+      "epoch": 0.05246417680427583,
+      "grad_norm": 6.107823371887207,
+      "learning_rate": 0.0,
+      "loss": 4.968,
+      "step": 400
+    },
+    {
+      "epoch": 0.05246417680427583,
+      "eval_loss": 1.1277720928192139,
+      "eval_runtime": 1406.7824,
+      "eval_samples_per_second": 9.128,
+      "eval_steps_per_second": 2.283,
+      "step": 400
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 9.330058462652006e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null