Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:331ccd56c372a6ff89755a68dd9b5edb188815d343d65ca2690a75217363f4a8
 size 140815952

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2a6a5eb5d0f01b55bf5b3818d537e74003b77a052ad1c016feb1847244dafc0
 size 140815952

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e54c010b95e2fd0839aae72c7cc74f3dbfa7a5c853b077cb18b288853262e008
 size 71878612

 version https://git-lfs.github.com/spec/v1
+oid sha256:feb91355981dec61999852dc8f57fcfc97b59f0a4dd88b94f535b66304fb3dcb
 size 71878612

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10841dd1f83a11fb56098f7d9238292cfa9091d460a622f53c2c7d6d43d6400a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c4aa299887e9b2f4f91c78948953289b823e5f532cea1915d4cd0ba02b14f07
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.7481515407562256,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.00801667468334135,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 58.018,
       "eval_steps_per_second": 14.509,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3864241215897600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.577565312385559,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.0160333493666827,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 58.018,
       "eval_steps_per_second": 14.509,
       "step": 50
+    },
+    {
+      "epoch": 0.008177008177008177,
+      "grad_norm": 4.216922760009766,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 0.9413,
+      "step": 51
+    },
+    {
+      "epoch": 0.008337341670675003,
+      "grad_norm": 4.562152862548828,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 1.3296,
+      "step": 52
+    },
+    {
+      "epoch": 0.008497675164341831,
+      "grad_norm": 3.430103302001953,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 1.4943,
+      "step": 53
+    },
+    {
+      "epoch": 0.008658008658008658,
+      "grad_norm": 3.834789276123047,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 1.6902,
+      "step": 54
+    },
+    {
+      "epoch": 0.008818342151675485,
+      "grad_norm": 2.8888132572174072,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 1.8122,
+      "step": 55
+    },
+    {
+      "epoch": 0.008978675645342313,
+      "grad_norm": 1.801705002784729,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 1.9578,
+      "step": 56
+    },
+    {
+      "epoch": 0.00913900913900914,
+      "grad_norm": 2.326319932937622,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 1.9303,
+      "step": 57
+    },
+    {
+      "epoch": 0.009299342632675966,
+      "grad_norm": 2.414191722869873,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 2.0898,
+      "step": 58
+    },
+    {
+      "epoch": 0.009459676126342792,
+      "grad_norm": 2.116661787033081,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 2.2721,
+      "step": 59
+    },
+    {
+      "epoch": 0.00962000962000962,
+      "grad_norm": 1.7814158201217651,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 1.7448,
+      "step": 60
+    },
+    {
+      "epoch": 0.009780343113676447,
+      "grad_norm": 1.5620167255401611,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 1.8467,
+      "step": 61
+    },
+    {
+      "epoch": 0.009940676607343274,
+      "grad_norm": 1.5871108770370483,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 2.0595,
+      "step": 62
+    },
+    {
+      "epoch": 0.010101010101010102,
+      "grad_norm": 1.481527328491211,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 1.6665,
+      "step": 63
+    },
+    {
+      "epoch": 0.010261343594676928,
+      "grad_norm": 1.3492636680603027,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 1.7218,
+      "step": 64
+    },
+    {
+      "epoch": 0.010421677088343755,
+      "grad_norm": 1.5018565654754639,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 1.9853,
+      "step": 65
+    },
+    {
+      "epoch": 0.010582010582010581,
+      "grad_norm": 1.436688780784607,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 2.061,
+      "step": 66
+    },
+    {
+      "epoch": 0.01074234407567741,
+      "grad_norm": 1.468376874923706,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.6864,
+      "step": 67
+    },
+    {
+      "epoch": 0.010902677569344236,
+      "grad_norm": 1.5045324563980103,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 1.899,
+      "step": 68
+    },
+    {
+      "epoch": 0.011063011063011063,
+      "grad_norm": 1.4142143726348877,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 2.0851,
+      "step": 69
+    },
+    {
+      "epoch": 0.01122334455667789,
+      "grad_norm": 1.4256950616836548,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 1.9298,
+      "step": 70
+    },
+    {
+      "epoch": 0.011383678050344717,
+      "grad_norm": 1.4729069471359253,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 1.6926,
+      "step": 71
+    },
+    {
+      "epoch": 0.011544011544011544,
+      "grad_norm": 1.4505417346954346,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 1.6073,
+      "step": 72
+    },
+    {
+      "epoch": 0.01170434503767837,
+      "grad_norm": 1.528064489364624,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 1.7171,
+      "step": 73
+    },
+    {
+      "epoch": 0.011864678531345199,
+      "grad_norm": 1.5659871101379395,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 1.9315,
+      "step": 74
+    },
+    {
+      "epoch": 0.012025012025012025,
+      "grad_norm": 1.6519936323165894,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 1.9801,
+      "step": 75
+    },
+    {
+      "epoch": 0.012185345518678852,
+      "grad_norm": 1.474597454071045,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 1.5052,
+      "step": 76
+    },
+    {
+      "epoch": 0.012345679012345678,
+      "grad_norm": 1.4802509546279907,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 1.4324,
+      "step": 77
+    },
+    {
+      "epoch": 0.012506012506012507,
+      "grad_norm": 1.6556718349456787,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 1.6473,
+      "step": 78
+    },
+    {
+      "epoch": 0.012666345999679333,
+      "grad_norm": 1.578564167022705,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 1.6985,
+      "step": 79
+    },
+    {
+      "epoch": 0.01282667949334616,
+      "grad_norm": 1.5099948644638062,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 1.5524,
+      "step": 80
+    },
+    {
+      "epoch": 0.012987012987012988,
+      "grad_norm": 1.6673612594604492,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 1.5226,
+      "step": 81
+    },
+    {
+      "epoch": 0.013147346480679814,
+      "grad_norm": 1.7997468709945679,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 1.5043,
+      "step": 82
+    },
+    {
+      "epoch": 0.013307679974346641,
+      "grad_norm": 1.7401671409606934,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 1.1924,
+      "step": 83
+    },
+    {
+      "epoch": 0.013468013468013467,
+      "grad_norm": 1.8019427061080933,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 1.1919,
+      "step": 84
+    },
+    {
+      "epoch": 0.013628346961680296,
+      "grad_norm": 1.8377891778945923,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 1.1958,
+      "step": 85
+    },
+    {
+      "epoch": 0.013788680455347122,
+      "grad_norm": 1.9431484937667847,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 1.2923,
+      "step": 86
+    },
+    {
+      "epoch": 0.013949013949013949,
+      "grad_norm": 1.7748252153396606,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 1.0951,
+      "step": 87
+    },
+    {
+      "epoch": 0.014109347442680775,
+      "grad_norm": 1.8332815170288086,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 1.1729,
+      "step": 88
+    },
+    {
+      "epoch": 0.014269680936347603,
+      "grad_norm": 2.066511869430542,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 1.2436,
+      "step": 89
+    },
+    {
+      "epoch": 0.01443001443001443,
+      "grad_norm": 1.8436999320983887,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 1.2209,
+      "step": 90
+    },
+    {
+      "epoch": 0.014590347923681257,
+      "grad_norm": 1.9777435064315796,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 1.1729,
+      "step": 91
+    },
+    {
+      "epoch": 0.014750681417348085,
+      "grad_norm": 1.988520622253418,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 1.2026,
+      "step": 92
+    },
+    {
+      "epoch": 0.014911014911014911,
+      "grad_norm": 2.101755380630493,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 1.229,
+      "step": 93
+    },
+    {
+      "epoch": 0.015071348404681738,
+      "grad_norm": 2.1809160709381104,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 1.0617,
+      "step": 94
+    },
+    {
+      "epoch": 0.015231681898348564,
+      "grad_norm": 2.251002073287964,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 1.326,
+      "step": 95
+    },
+    {
+      "epoch": 0.015392015392015393,
+      "grad_norm": 2.272563934326172,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 1.0713,
+      "step": 96
+    },
+    {
+      "epoch": 0.015552348885682219,
+      "grad_norm": 3.0095102787017822,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 1.1834,
+      "step": 97
+    },
+    {
+      "epoch": 0.015712682379349047,
+      "grad_norm": 2.3724913597106934,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 1.0536,
+      "step": 98
+    },
+    {
+      "epoch": 0.015873015873015872,
+      "grad_norm": 3.3596227169036865,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 0.9999,
+      "step": 99
+    },
+    {
+      "epoch": 0.0160333493666827,
+      "grad_norm": 4.8523383140563965,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 0.9932,
+      "step": 100
+    },
+    {
+      "epoch": 0.0160333493666827,
+      "eval_loss": 1.577565312385559,
+      "eval_runtime": 181.1273,
+      "eval_samples_per_second": 57.998,
+      "eval_steps_per_second": 14.504,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7728482431795200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null