Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a82df46caad5e3a720999264481ab444c9ccbc7c0534d4bea9a7ae6189fbfc9f
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f44d7b1b7710a4262297edf4dcb20085970c911b031b380c84e849d0e6c44e3
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef923aef9fd14232dcb277407b6a167a7ed3d2316e6cd54f3c4bc0a42dcebc69
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:afb22404d4e4533daf0f52ad8ef4141a19fc291f1ce4e990da23384cfcec76a8
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d06e0c933b72b25be8a5299bc90a38b6cb5c84d56426eb799cf2bb1311e5d91
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:547e95d19b998c5bc19068c5b78fd6d5cec14671d8e6daba4f5c47c55728f426
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ad2841b888ce0ae948634757c3fcacf0119c249e0fec8f3ca61ea266369ef92
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5d2a6c6aafc669cea03b9634666f204de949a3d45ce2f48a07e7e3eaf18c715
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.14771892130374908,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.009848820603732702,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,372 @@
       "eval_samples_per_second": 4.815,
       "eval_steps_per_second": 0.674,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -409,7 +775,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.778132335099904e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.11340178549289703,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.019697641207465404,
   "eval_steps": 25,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.815,
       "eval_steps_per_second": 0.674,
       "step": 50
+    },
+    {
+      "epoch": 0.010045797015807358,
+      "grad_norm": 2.2570748329162598,
+      "learning_rate": 0.0002668315918143169,
+      "loss": 0.6271,
+      "step": 51
+    },
+    {
+      "epoch": 0.010242773427882011,
+      "grad_norm": 1.3872201442718506,
+      "learning_rate": 0.00026526016662852886,
+      "loss": 0.47,
+      "step": 52
+    },
+    {
+      "epoch": 0.010439749839956665,
+      "grad_norm": 0.9401403665542603,
+      "learning_rate": 0.00026365723046405023,
+      "loss": 0.443,
+      "step": 53
+    },
+    {
+      "epoch": 0.010636726252031319,
+      "grad_norm": 0.6595192551612854,
+      "learning_rate": 0.0002620232215476231,
+      "loss": 0.3299,
+      "step": 54
+    },
+    {
+      "epoch": 0.010833702664105974,
+      "grad_norm": 0.527516782283783,
+      "learning_rate": 0.0002603585866009697,
+      "loss": 0.2561,
+      "step": 55
+    },
+    {
+      "epoch": 0.011030679076180628,
+      "grad_norm": 0.5898721814155579,
+      "learning_rate": 0.00025866378071866334,
+      "loss": 0.3284,
+      "step": 56
+    },
+    {
+      "epoch": 0.011227655488255281,
+      "grad_norm": 0.6567277908325195,
+      "learning_rate": 0.00025693926724370956,
+      "loss": 0.3464,
+      "step": 57
+    },
+    {
+      "epoch": 0.011424631900329935,
+      "grad_norm": 0.6930991411209106,
+      "learning_rate": 0.00025518551764087326,
+      "loss": 0.3655,
+      "step": 58
+    },
+    {
+      "epoch": 0.01162160831240459,
+      "grad_norm": 0.6276407241821289,
+      "learning_rate": 0.00025340301136778483,
+      "loss": 0.3158,
+      "step": 59
+    },
+    {
+      "epoch": 0.011818584724479244,
+      "grad_norm": 0.6224534511566162,
+      "learning_rate": 0.00025159223574386114,
+      "loss": 0.3519,
+      "step": 60
+    },
+    {
+      "epoch": 0.012015561136553898,
+      "grad_norm": 0.6579044461250305,
+      "learning_rate": 0.0002497536858170772,
+      "loss": 0.3508,
+      "step": 61
+    },
+    {
+      "epoch": 0.012212537548628551,
+      "grad_norm": 0.5916846394538879,
+      "learning_rate": 0.00024788786422862526,
+      "loss": 0.3069,
+      "step": 62
+    },
+    {
+      "epoch": 0.012409513960703205,
+      "grad_norm": 0.6183111071586609,
+      "learning_rate": 0.00024599528107549745,
+      "loss": 0.2878,
+      "step": 63
+    },
+    {
+      "epoch": 0.01260649037277786,
+      "grad_norm": 0.6713694334030151,
+      "learning_rate": 0.00024407645377103054,
+      "loss": 0.3213,
+      "step": 64
+    },
+    {
+      "epoch": 0.012803466784852514,
+      "grad_norm": 0.8130861520767212,
+      "learning_rate": 0.00024213190690345018,
+      "loss": 0.3197,
+      "step": 65
+    },
+    {
+      "epoch": 0.013000443196927168,
+      "grad_norm": 0.4906407594680786,
+      "learning_rate": 0.00024016217209245374,
+      "loss": 0.2504,
+      "step": 66
+    },
+    {
+      "epoch": 0.013197419609001821,
+      "grad_norm": 0.6218925714492798,
+      "learning_rate": 0.00023816778784387094,
+      "loss": 0.2868,
+      "step": 67
+    },
+    {
+      "epoch": 0.013394396021076477,
+      "grad_norm": 0.6536829471588135,
+      "learning_rate": 0.0002361492994024415,
+      "loss": 0.2905,
+      "step": 68
+    },
+    {
+      "epoch": 0.01359137243315113,
+      "grad_norm": 0.5276692509651184,
+      "learning_rate": 0.0002341072586027509,
+      "loss": 0.2757,
+      "step": 69
+    },
+    {
+      "epoch": 0.013788348845225784,
+      "grad_norm": 0.8190099000930786,
+      "learning_rate": 0.00023204222371836405,
+      "loss": 0.3012,
+      "step": 70
+    },
+    {
+      "epoch": 0.013985325257300438,
+      "grad_norm": 0.7881957292556763,
+      "learning_rate": 0.00022995475930919905,
+      "loss": 0.2993,
+      "step": 71
+    },
+    {
+      "epoch": 0.014182301669375093,
+      "grad_norm": 0.8249359726905823,
+      "learning_rate": 0.00022784543606718227,
+      "loss": 0.3406,
+      "step": 72
+    },
+    {
+      "epoch": 0.014379278081449747,
+      "grad_norm": 0.9758163690567017,
+      "learning_rate": 0.00022571483066022657,
+      "loss": 0.2938,
+      "step": 73
+    },
+    {
+      "epoch": 0.0145762544935244,
+      "grad_norm": 0.6984056234359741,
+      "learning_rate": 0.0002235635255745762,
+      "loss": 0.2965,
+      "step": 74
+    },
+    {
+      "epoch": 0.014773230905599054,
+      "grad_norm": 0.8371394276618958,
+      "learning_rate": 0.00022139210895556104,
+      "loss": 0.3191,
+      "step": 75
+    },
+    {
+      "epoch": 0.014773230905599054,
+      "eval_loss": 0.0825795829296112,
+      "eval_runtime": 10.3801,
+      "eval_samples_per_second": 4.817,
+      "eval_steps_per_second": 0.674,
+      "step": 75
+    },
+    {
+      "epoch": 0.014970207317673708,
+      "grad_norm": 0.6708223223686218,
+      "learning_rate": 0.00021920117444680317,
+      "loss": 0.3168,
+      "step": 76
+    },
+    {
+      "epoch": 0.015167183729748363,
+      "grad_norm": 0.6277792453765869,
+      "learning_rate": 0.00021699132102792097,
+      "loss": 0.2699,
+      "step": 77
+    },
+    {
+      "epoch": 0.015364160141823017,
+      "grad_norm": 1.0930883884429932,
+      "learning_rate": 0.0002147631528507739,
+      "loss": 0.3786,
+      "step": 78
+    },
+    {
+      "epoch": 0.01556113655389767,
+      "grad_norm": 0.6358778476715088,
+      "learning_rate": 0.00021251727907429355,
+      "loss": 0.3144,
+      "step": 79
+    },
+    {
+      "epoch": 0.015758112965972324,
+      "grad_norm": 0.7981488108634949,
+      "learning_rate": 0.0002102543136979454,
+      "loss": 0.3314,
+      "step": 80
+    },
+    {
+      "epoch": 0.015955089378046978,
+      "grad_norm": 0.7823123335838318,
+      "learning_rate": 0.0002079748753938678,
+      "loss": 0.2656,
+      "step": 81
+    },
+    {
+      "epoch": 0.01615206579012163,
+      "grad_norm": 0.6537957787513733,
+      "learning_rate": 0.0002056795873377331,
+      "loss": 0.316,
+      "step": 82
+    },
+    {
+      "epoch": 0.01634904220219629,
+      "grad_norm": 0.6539929509162903,
+      "learning_rate": 0.00020336907703837748,
+      "loss": 0.2713,
+      "step": 83
+    },
+    {
+      "epoch": 0.016546018614270942,
+      "grad_norm": 1.0729496479034424,
+      "learning_rate": 0.00020104397616624645,
+      "loss": 0.2545,
+      "step": 84
+    },
+    {
+      "epoch": 0.016742995026345596,
+      "grad_norm": 0.7264039516448975,
+      "learning_rate": 0.00019870492038070252,
+      "loss": 0.3414,
+      "step": 85
+    },
+    {
+      "epoch": 0.01693997143842025,
+      "grad_norm": 0.7242591977119446,
+      "learning_rate": 0.0001963525491562421,
+      "loss": 0.275,
+      "step": 86
+    },
+    {
+      "epoch": 0.017136947850494903,
+      "grad_norm": 0.860544741153717,
+      "learning_rate": 0.0001939875056076697,
+      "loss": 0.2932,
+      "step": 87
+    },
+    {
+      "epoch": 0.017333924262569557,
+      "grad_norm": 0.851104199886322,
+      "learning_rate": 0.00019161043631427666,
+      "loss": 0.2768,
+      "step": 88
+    },
+    {
+      "epoch": 0.01753090067464421,
+      "grad_norm": 0.8001173138618469,
+      "learning_rate": 0.00018922199114307294,
+      "loss": 0.2581,
+      "step": 89
+    },
+    {
+      "epoch": 0.017727877086718864,
+      "grad_norm": 1.0649043321609497,
+      "learning_rate": 0.00018682282307111987,
+      "loss": 0.3063,
+      "step": 90
+    },
+    {
+      "epoch": 0.017924853498793518,
+      "grad_norm": 0.90488201379776,
+      "learning_rate": 0.00018441358800701273,
+      "loss": 0.2846,
+      "step": 91
+    },
+    {
+      "epoch": 0.018121829910868175,
+      "grad_norm": 0.955570638179779,
+      "learning_rate": 0.00018199494461156203,
+      "loss": 0.3494,
+      "step": 92
+    },
+    {
+      "epoch": 0.01831880632294283,
+      "grad_norm": 1.2587333917617798,
+      "learning_rate": 0.000179567554117722,
+      "loss": 0.2484,
+      "step": 93
+    },
+    {
+      "epoch": 0.018515782735017482,
+      "grad_norm": 0.7618815898895264,
+      "learning_rate": 0.00017713208014981648,
+      "loss": 0.2205,
+      "step": 94
+    },
+    {
+      "epoch": 0.018712759147092136,
+      "grad_norm": 0.8597466945648193,
+      "learning_rate": 0.00017468918854211007,
+      "loss": 0.2238,
+      "step": 95
+    },
+    {
+      "epoch": 0.01890973555916679,
+      "grad_norm": 1.390031099319458,
+      "learning_rate": 0.00017223954715677627,
+      "loss": 0.2533,
+      "step": 96
+    },
+    {
+      "epoch": 0.019106711971241443,
+      "grad_norm": 0.9729688763618469,
+      "learning_rate": 0.00016978382570131034,
+      "loss": 0.1609,
+      "step": 97
+    },
+    {
+      "epoch": 0.019303688383316097,
+      "grad_norm": 0.6992880702018738,
+      "learning_rate": 0.00016732269554543794,
+      "loss": 0.1844,
+      "step": 98
+    },
+    {
+      "epoch": 0.01950066479539075,
+      "grad_norm": 1.1221824884414673,
+      "learning_rate": 0.00016485682953756942,
+      "loss": 0.2346,
+      "step": 99
+    },
+    {
+      "epoch": 0.019697641207465404,
+      "grad_norm": 2.233081817626953,
+      "learning_rate": 0.00016238690182084986,
+      "loss": 0.4078,
+      "step": 100
+    },
+    {
+      "epoch": 0.019697641207465404,
+      "eval_loss": 0.11340178549289703,
+      "eval_runtime": 12.7864,
+      "eval_samples_per_second": 3.91,
+      "eval_steps_per_second": 0.547,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.7369495897112576e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null