Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fe0feb48fe62aa6e2b3ec2a3cd8038b05b8c2c7f128f280a7537a7872c0395b
 size 645975704

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddab7c69343af5caaf93f4dd233507d377a61423c08eed952aaf6eb143e3c4a
 size 645975704

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1320a1521ee7c96880f98edae75a32ac79ae13dfea4dd7f8fffb1c3ca3496fcb
 size 328468404

 version https://git-lfs.github.com/spec/v1
+oid sha256:03927b2315418b9b1552330c82fc7339cac8b8bada3c102c9d809c63c84c705d
 size 328468404

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22c18bfde3fe27dc64c0d13b7808a68aaf2a8325d24aaa41a51a7f7a419b8cdf
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1112b86ea2ccf53bf6fa78c0004230219252ce4c3cbcafa985b4b3e0cd872dfb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.8853886127471924,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.23228803716608595,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 10.318,
       "eval_steps_per_second": 2.587,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.7754847117312e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.871712327003479,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.4645760743321719,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.318,
       "eval_steps_per_second": 2.587,
       "step": 50
+    },
+    {
+      "epoch": 0.23693379790940766,
+      "grad_norm": 0.14753635227680206,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 0.958,
+      "step": 51
+    },
+    {
+      "epoch": 0.2415795586527294,
+      "grad_norm": 0.13887369632720947,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 0.653,
+      "step": 52
+    },
+    {
+      "epoch": 0.2462253193960511,
+      "grad_norm": 0.1636919528245926,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 0.8807,
+      "step": 53
+    },
+    {
+      "epoch": 0.2508710801393728,
+      "grad_norm": 0.14415013790130615,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 0.846,
+      "step": 54
+    },
+    {
+      "epoch": 0.25551684088269455,
+      "grad_norm": 0.1366504728794098,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 0.6806,
+      "step": 55
+    },
+    {
+      "epoch": 0.2601626016260163,
+      "grad_norm": 0.11705049127340317,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 0.7397,
+      "step": 56
+    },
+    {
+      "epoch": 0.26480836236933797,
+      "grad_norm": 0.12336675822734833,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 0.7548,
+      "step": 57
+    },
+    {
+      "epoch": 0.2694541231126597,
+      "grad_norm": 0.12091846764087677,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 0.9128,
+      "step": 58
+    },
+    {
+      "epoch": 0.27409988385598144,
+      "grad_norm": 0.11321322619915009,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 0.8901,
+      "step": 59
+    },
+    {
+      "epoch": 0.2787456445993031,
+      "grad_norm": 0.11016193777322769,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 0.9241,
+      "step": 60
+    },
+    {
+      "epoch": 0.28339140534262486,
+      "grad_norm": 0.10698598623275757,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 0.8907,
+      "step": 61
+    },
+    {
+      "epoch": 0.2880371660859466,
+      "grad_norm": 0.10707106441259384,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 0.8498,
+      "step": 62
+    },
+    {
+      "epoch": 0.2926829268292683,
+      "grad_norm": 0.11155840009450912,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 0.7976,
+      "step": 63
+    },
+    {
+      "epoch": 0.29732868757259,
+      "grad_norm": 0.10202828049659729,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 0.8585,
+      "step": 64
+    },
+    {
+      "epoch": 0.30197444831591175,
+      "grad_norm": 0.11714151501655579,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 0.817,
+      "step": 65
+    },
+    {
+      "epoch": 0.30662020905923343,
+      "grad_norm": 0.10279451310634613,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 0.7803,
+      "step": 66
+    },
+    {
+      "epoch": 0.31126596980255516,
+      "grad_norm": 0.10880623757839203,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.8819,
+      "step": 67
+    },
+    {
+      "epoch": 0.3159117305458769,
+      "grad_norm": 0.10310228914022446,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 0.7834,
+      "step": 68
+    },
+    {
+      "epoch": 0.3205574912891986,
+      "grad_norm": 0.1109737902879715,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 0.7166,
+      "step": 69
+    },
+    {
+      "epoch": 0.3252032520325203,
+      "grad_norm": 0.11841745674610138,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 0.7829,
+      "step": 70
+    },
+    {
+      "epoch": 0.32984901277584205,
+      "grad_norm": 0.1297767162322998,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 0.7764,
+      "step": 71
+    },
+    {
+      "epoch": 0.3344947735191638,
+      "grad_norm": 0.1227758377790451,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 0.707,
+      "step": 72
+    },
+    {
+      "epoch": 0.33914053426248547,
+      "grad_norm": 0.13544820249080658,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 0.8454,
+      "step": 73
+    },
+    {
+      "epoch": 0.3437862950058072,
+      "grad_norm": 0.1268458068370819,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 0.7319,
+      "step": 74
+    },
+    {
+      "epoch": 0.34843205574912894,
+      "grad_norm": 0.13013871014118195,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 0.7981,
+      "step": 75
+    },
+    {
+      "epoch": 0.3530778164924506,
+      "grad_norm": 0.1546456515789032,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 0.7556,
+      "step": 76
+    },
+    {
+      "epoch": 0.35772357723577236,
+      "grad_norm": 0.14676199853420258,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 0.7872,
+      "step": 77
+    },
+    {
+      "epoch": 0.3623693379790941,
+      "grad_norm": 0.14500990509986877,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 0.9039,
+      "step": 78
+    },
+    {
+      "epoch": 0.3670150987224158,
+      "grad_norm": 0.1635589599609375,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 0.7036,
+      "step": 79
+    },
+    {
+      "epoch": 0.3716608594657375,
+      "grad_norm": 0.16299131512641907,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 0.8043,
+      "step": 80
+    },
+    {
+      "epoch": 0.37630662020905925,
+      "grad_norm": 0.1477063000202179,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 0.7513,
+      "step": 81
+    },
+    {
+      "epoch": 0.38095238095238093,
+      "grad_norm": 0.17232096195220947,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 0.7715,
+      "step": 82
+    },
+    {
+      "epoch": 0.38559814169570267,
+      "grad_norm": 0.17469638586044312,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 0.9285,
+      "step": 83
+    },
+    {
+      "epoch": 0.3902439024390244,
+      "grad_norm": 0.16923201084136963,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 0.7327,
+      "step": 84
+    },
+    {
+      "epoch": 0.3948896631823461,
+      "grad_norm": 0.1980726420879364,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 0.7601,
+      "step": 85
+    },
+    {
+      "epoch": 0.3995354239256678,
+      "grad_norm": 0.20499838888645172,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.9292,
+      "step": 86
+    },
+    {
+      "epoch": 0.40418118466898956,
+      "grad_norm": 0.2034449428319931,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 0.9332,
+      "step": 87
+    },
+    {
+      "epoch": 0.4088269454123113,
+      "grad_norm": 0.22591711580753326,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 1.0875,
+      "step": 88
+    },
+    {
+      "epoch": 0.413472706155633,
+      "grad_norm": 0.2202339917421341,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 0.8283,
+      "step": 89
+    },
+    {
+      "epoch": 0.4181184668989547,
+      "grad_norm": 0.2351447194814682,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 0.8803,
+      "step": 90
+    },
+    {
+      "epoch": 0.42276422764227645,
+      "grad_norm": 0.22027833759784698,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 0.9161,
+      "step": 91
+    },
+    {
+      "epoch": 0.4274099883855981,
+      "grad_norm": 0.2328965663909912,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 0.8979,
+      "step": 92
+    },
+    {
+      "epoch": 0.43205574912891986,
+      "grad_norm": 0.26121312379837036,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 0.9793,
+      "step": 93
+    },
+    {
+      "epoch": 0.4367015098722416,
+      "grad_norm": 0.28046953678131104,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 1.0957,
+      "step": 94
+    },
+    {
+      "epoch": 0.4413472706155633,
+      "grad_norm": 0.285359650850296,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 1.0233,
+      "step": 95
+    },
+    {
+      "epoch": 0.445993031358885,
+      "grad_norm": 0.28869330883026123,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 1.0457,
+      "step": 96
+    },
+    {
+      "epoch": 0.45063879210220675,
+      "grad_norm": 0.3298930823802948,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 1.1204,
+      "step": 97
+    },
+    {
+      "epoch": 0.45528455284552843,
+      "grad_norm": 0.3415940999984741,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 1.0313,
+      "step": 98
+    },
+    {
+      "epoch": 0.45993031358885017,
+      "grad_norm": 0.6324352025985718,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 1.2237,
+      "step": 99
+    },
+    {
+      "epoch": 0.4645760743321719,
+      "grad_norm": 0.7398970723152161,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 1.2192,
+      "step": 100
+    },
+    {
+      "epoch": 0.4645760743321719,
+      "eval_loss": 0.871712327003479,
+      "eval_runtime": 35.4234,
+      "eval_samples_per_second": 10.247,
+      "eval_steps_per_second": 2.569,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.937323333779456e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null