Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25e201633d004ea0085590a7e01a26b5caf95b2d9f09781256f2e33b7241dc9a
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:56dae72d2ded421fb1ac1d98de1a923199af8e5633a46d226d38880dda056beb
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27d095386825dc1a3a59acb2073d4ce0ef6386a9121fbeabc6b3e42b89fe24d8
 size 325339796

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1ad6d6bdcb4e7b87fa7a1337c324ef22d3e77504ff3f1a17723d2a18ce1b3e1
 size 325339796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5b7db10a1f179656f27aa2a3b0e003c6cb62c8fca6acfa72451d972d7f513c1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3b50d39a6832c16889429256fa411c483ef50ece42179d23082831c86404ca9
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.4609953165054321,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.2094240837696335,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 13.889,
       "eval_steps_per_second": 3.481,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.71020323176448e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.351357102394104,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.418848167539267,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.889,
       "eval_steps_per_second": 3.481,
       "step": 50
+    },
+    {
+      "epoch": 0.2136125654450262,
+      "grad_norm": 0.7326249480247498,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 1.5822,
+      "step": 51
+    },
+    {
+      "epoch": 0.21780104712041884,
+      "grad_norm": 0.6222273111343384,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 1.4945,
+      "step": 52
+    },
+    {
+      "epoch": 0.22198952879581152,
+      "grad_norm": 0.4404517710208893,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 1.4369,
+      "step": 53
+    },
+    {
+      "epoch": 0.2261780104712042,
+      "grad_norm": 0.3408048450946808,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 1.3665,
+      "step": 54
+    },
+    {
+      "epoch": 0.23036649214659685,
+      "grad_norm": 0.3527311384677887,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 1.4797,
+      "step": 55
+    },
+    {
+      "epoch": 0.23455497382198953,
+      "grad_norm": 0.34772562980651855,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 1.3664,
+      "step": 56
+    },
+    {
+      "epoch": 0.2387434554973822,
+      "grad_norm": 0.31533706188201904,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 1.358,
+      "step": 57
+    },
+    {
+      "epoch": 0.24293193717277486,
+      "grad_norm": 0.28406214714050293,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 1.3421,
+      "step": 58
+    },
+    {
+      "epoch": 0.24712041884816754,
+      "grad_norm": 0.297507107257843,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 1.3763,
+      "step": 59
+    },
+    {
+      "epoch": 0.2513089005235602,
+      "grad_norm": 0.32910609245300293,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 1.3574,
+      "step": 60
+    },
+    {
+      "epoch": 0.2554973821989529,
+      "grad_norm": 0.3502568304538727,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 1.4294,
+      "step": 61
+    },
+    {
+      "epoch": 0.25968586387434556,
+      "grad_norm": 0.31924673914909363,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 1.3464,
+      "step": 62
+    },
+    {
+      "epoch": 0.2638743455497382,
+      "grad_norm": 0.3037525415420532,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 1.2925,
+      "step": 63
+    },
+    {
+      "epoch": 0.2680628272251309,
+      "grad_norm": 0.30458396673202515,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 1.3565,
+      "step": 64
+    },
+    {
+      "epoch": 0.27225130890052357,
+      "grad_norm": 0.31747856736183167,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 1.3534,
+      "step": 65
+    },
+    {
+      "epoch": 0.2764397905759162,
+      "grad_norm": 0.3151717782020569,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 1.3482,
+      "step": 66
+    },
+    {
+      "epoch": 0.2806282722513089,
+      "grad_norm": 0.3036843538284302,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.3459,
+      "step": 67
+    },
+    {
+      "epoch": 0.2848167539267016,
+      "grad_norm": 0.3110540211200714,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 1.3271,
+      "step": 68
+    },
+    {
+      "epoch": 0.28900523560209423,
+      "grad_norm": 0.3139282763004303,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 1.3885,
+      "step": 69
+    },
+    {
+      "epoch": 0.2931937172774869,
+      "grad_norm": 0.32266420125961304,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 1.3249,
+      "step": 70
+    },
+    {
+      "epoch": 0.2973821989528796,
+      "grad_norm": 0.3372081518173218,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 1.2639,
+      "step": 71
+    },
+    {
+      "epoch": 0.30157068062827225,
+      "grad_norm": 0.3430722951889038,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 1.3682,
+      "step": 72
+    },
+    {
+      "epoch": 0.3057591623036649,
+      "grad_norm": 0.35122257471084595,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 1.3369,
+      "step": 73
+    },
+    {
+      "epoch": 0.3099476439790576,
+      "grad_norm": 0.3526090085506439,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 1.3259,
+      "step": 74
+    },
+    {
+      "epoch": 0.31413612565445026,
+      "grad_norm": 0.37421196699142456,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 1.3914,
+      "step": 75
+    },
+    {
+      "epoch": 0.3183246073298429,
+      "grad_norm": 0.37143388390541077,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 1.4003,
+      "step": 76
+    },
+    {
+      "epoch": 0.3225130890052356,
+      "grad_norm": 0.3665562868118286,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 1.2909,
+      "step": 77
+    },
+    {
+      "epoch": 0.3267015706806283,
+      "grad_norm": 0.3665645122528076,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 1.3176,
+      "step": 78
+    },
+    {
+      "epoch": 0.3308900523560209,
+      "grad_norm": 0.3843286335468292,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 1.2935,
+      "step": 79
+    },
+    {
+      "epoch": 0.33507853403141363,
+      "grad_norm": 0.42542752623558044,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 1.3432,
+      "step": 80
+    },
+    {
+      "epoch": 0.3392670157068063,
+      "grad_norm": 0.4372069239616394,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 1.3206,
+      "step": 81
+    },
+    {
+      "epoch": 0.34345549738219894,
+      "grad_norm": 0.46938851475715637,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 1.3445,
+      "step": 82
+    },
+    {
+      "epoch": 0.34764397905759165,
+      "grad_norm": 0.46583279967308044,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 1.3522,
+      "step": 83
+    },
+    {
+      "epoch": 0.3518324607329843,
+      "grad_norm": 0.5285698771476746,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 1.3371,
+      "step": 84
+    },
+    {
+      "epoch": 0.35602094240837695,
+      "grad_norm": 0.5335991382598877,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 1.3201,
+      "step": 85
+    },
+    {
+      "epoch": 0.36020942408376966,
+      "grad_norm": 0.48621413111686707,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 1.2709,
+      "step": 86
+    },
+    {
+      "epoch": 0.3643979057591623,
+      "grad_norm": 0.5229520201683044,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 1.2761,
+      "step": 87
+    },
+    {
+      "epoch": 0.36858638743455496,
+      "grad_norm": 0.5092804431915283,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 1.3199,
+      "step": 88
+    },
+    {
+      "epoch": 0.37277486910994767,
+      "grad_norm": 0.5382634401321411,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 1.3828,
+      "step": 89
+    },
+    {
+      "epoch": 0.3769633507853403,
+      "grad_norm": 0.5918077230453491,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 1.2516,
+      "step": 90
+    },
+    {
+      "epoch": 0.381151832460733,
+      "grad_norm": 0.5466107726097107,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 1.2599,
+      "step": 91
+    },
+    {
+      "epoch": 0.38534031413612563,
+      "grad_norm": 0.61199951171875,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 1.3207,
+      "step": 92
+    },
+    {
+      "epoch": 0.38952879581151834,
+      "grad_norm": 0.6159107685089111,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 1.2706,
+      "step": 93
+    },
+    {
+      "epoch": 0.393717277486911,
+      "grad_norm": 0.6025269627571106,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 1.3188,
+      "step": 94
+    },
+    {
+      "epoch": 0.39790575916230364,
+      "grad_norm": 0.6132339239120483,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 1.233,
+      "step": 95
+    },
+    {
+      "epoch": 0.40209424083769635,
+      "grad_norm": 0.6684319972991943,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 1.3105,
+      "step": 96
+    },
+    {
+      "epoch": 0.406282722513089,
+      "grad_norm": 0.7070481181144714,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 1.2007,
+      "step": 97
+    },
+    {
+      "epoch": 0.41047120418848165,
+      "grad_norm": 0.7131744027137756,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 1.1659,
+      "step": 98
+    },
+    {
+      "epoch": 0.41465968586387436,
+      "grad_norm": 0.7557907104492188,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 1.2086,
+      "step": 99
+    },
+    {
+      "epoch": 0.418848167539267,
+      "grad_norm": 1.0365667343139648,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 1.0911,
+      "step": 100
+    },
+    {
+      "epoch": 0.418848167539267,
+      "eval_loss": 1.351357102394104,
+      "eval_runtime": 28.9204,
+      "eval_samples_per_second": 13.935,
+      "eval_steps_per_second": 3.492,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.342040646352896e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null