Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f01d94bbe55576c28e61a378465e7d6b5c42f872880f8eb49f92fad1b8388de
 size 912336848

 version https://git-lfs.github.com/spec/v1
+oid sha256:436bc40987fea02b0e5787c947c758810e1bb2f9ea90bc3f5775267069413696
 size 912336848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5532e8a8e2b5d61a1556f24ad5ca71e5018f41c0c9666a22ee55fe9b085c1c3c
 size 463916180

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fd6903a576f9d812ace772073519c99679e024334fd425f88bb3eb97ea0f5b4
 size 463916180

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f718d514232b5744742f92c7332037765ca9a9e7de363ebe5e130a92740a1db2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e63b9c3956df80ec528cc467810e3135c069e80c68b8bc041d3c90d9b4f4d2b4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.5564213991165161,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.5194805194805194,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 9.164,
       "eval_steps_per_second": 2.319,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.16045503266816e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.4060604572296143,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 1.0389610389610389,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.164,
       "eval_steps_per_second": 2.319,
       "step": 50
+    },
+    {
+      "epoch": 0.5298701298701298,
+      "grad_norm": 9.15640926361084,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 2.5358,
+      "step": 51
+    },
+    {
+      "epoch": 0.5402597402597402,
+      "grad_norm": 7.217840194702148,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 2.8447,
+      "step": 52
+    },
+    {
+      "epoch": 0.5506493506493506,
+      "grad_norm": 7.621275424957275,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 4.0846,
+      "step": 53
+    },
+    {
+      "epoch": 0.561038961038961,
+      "grad_norm": 6.927586078643799,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 2.7463,
+      "step": 54
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 7.786722660064697,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 3.0062,
+      "step": 55
+    },
+    {
+      "epoch": 0.5818181818181818,
+      "grad_norm": 7.90624475479126,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 3.631,
+      "step": 56
+    },
+    {
+      "epoch": 0.5922077922077922,
+      "grad_norm": 22.610877990722656,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 4.3947,
+      "step": 57
+    },
+    {
+      "epoch": 0.6025974025974026,
+      "grad_norm": 8.461299896240234,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 8.2739,
+      "step": 58
+    },
+    {
+      "epoch": 0.612987012987013,
+      "grad_norm": 8.185771942138672,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 8.7998,
+      "step": 59
+    },
+    {
+      "epoch": 0.6233766233766234,
+      "grad_norm": 7.691197395324707,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 8.1865,
+      "step": 60
+    },
+    {
+      "epoch": 0.6337662337662338,
+      "grad_norm": 8.699455261230469,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 8.2093,
+      "step": 61
+    },
+    {
+      "epoch": 0.6441558441558441,
+      "grad_norm": 8.309798240661621,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 7.5779,
+      "step": 62
+    },
+    {
+      "epoch": 0.6545454545454545,
+      "grad_norm": 8.643186569213867,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 6.7183,
+      "step": 63
+    },
+    {
+      "epoch": 0.6649350649350649,
+      "grad_norm": 8.525787353515625,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 5.9121,
+      "step": 64
+    },
+    {
+      "epoch": 0.6753246753246753,
+      "grad_norm": 9.759805679321289,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 6.8276,
+      "step": 65
+    },
+    {
+      "epoch": 0.6857142857142857,
+      "grad_norm": 10.294455528259277,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 6.1688,
+      "step": 66
+    },
+    {
+      "epoch": 0.6961038961038961,
+      "grad_norm": 10.0902681350708,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 7.0199,
+      "step": 67
+    },
+    {
+      "epoch": 0.7064935064935065,
+      "grad_norm": 14.20248031616211,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 6.6244,
+      "step": 68
+    },
+    {
+      "epoch": 0.7168831168831169,
+      "grad_norm": 12.053751945495605,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 7.9556,
+      "step": 69
+    },
+    {
+      "epoch": 0.7272727272727273,
+      "grad_norm": 10.587654113769531,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 6.6079,
+      "step": 70
+    },
+    {
+      "epoch": 0.7376623376623377,
+      "grad_norm": 13.080458641052246,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 6.8979,
+      "step": 71
+    },
+    {
+      "epoch": 0.7480519480519481,
+      "grad_norm": 20.203798294067383,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 7.6002,
+      "step": 72
+    },
+    {
+      "epoch": 0.7584415584415585,
+      "grad_norm": 10.804618835449219,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 4.3275,
+      "step": 73
+    },
+    {
+      "epoch": 0.7688311688311689,
+      "grad_norm": 12.095099449157715,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 3.1685,
+      "step": 74
+    },
+    {
+      "epoch": 0.7792207792207793,
+      "grad_norm": 5.91151762008667,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 2.4299,
+      "step": 75
+    },
+    {
+      "epoch": 0.7896103896103897,
+      "grad_norm": 6.148896217346191,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 2.697,
+      "step": 76
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 6.840137481689453,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 2.8022,
+      "step": 77
+    },
+    {
+      "epoch": 0.8103896103896104,
+      "grad_norm": 7.766355991363525,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 2.9416,
+      "step": 78
+    },
+    {
+      "epoch": 0.8207792207792208,
+      "grad_norm": 5.920592784881592,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 2.6363,
+      "step": 79
+    },
+    {
+      "epoch": 0.8311688311688312,
+      "grad_norm": 6.974241733551025,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 3.4222,
+      "step": 80
+    },
+    {
+      "epoch": 0.8415584415584415,
+      "grad_norm": 6.821755886077881,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 2.7414,
+      "step": 81
+    },
+    {
+      "epoch": 0.8519480519480519,
+      "grad_norm": 9.252930641174316,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 6.7547,
+      "step": 82
+    },
+    {
+      "epoch": 0.8623376623376623,
+      "grad_norm": 7.803735733032227,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 8.0916,
+      "step": 83
+    },
+    {
+      "epoch": 0.8727272727272727,
+      "grad_norm": 6.56402587890625,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 7.0716,
+      "step": 84
+    },
+    {
+      "epoch": 0.8831168831168831,
+      "grad_norm": 7.134830951690674,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 7.6986,
+      "step": 85
+    },
+    {
+      "epoch": 0.8935064935064935,
+      "grad_norm": 7.818478584289551,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 7.4413,
+      "step": 86
+    },
+    {
+      "epoch": 0.9038961038961039,
+      "grad_norm": 7.542208671569824,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 6.4206,
+      "step": 87
+    },
+    {
+      "epoch": 0.9142857142857143,
+      "grad_norm": 7.44448709487915,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 6.1373,
+      "step": 88
+    },
+    {
+      "epoch": 0.9246753246753247,
+      "grad_norm": 10.097084999084473,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 6.8287,
+      "step": 89
+    },
+    {
+      "epoch": 0.935064935064935,
+      "grad_norm": 12.01990795135498,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 6.7226,
+      "step": 90
+    },
+    {
+      "epoch": 0.9454545454545454,
+      "grad_norm": 9.571053504943848,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 5.2302,
+      "step": 91
+    },
+    {
+      "epoch": 0.9558441558441558,
+      "grad_norm": 11.317047119140625,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 6.8719,
+      "step": 92
+    },
+    {
+      "epoch": 0.9662337662337662,
+      "grad_norm": 10.105382919311523,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 6.5456,
+      "step": 93
+    },
+    {
+      "epoch": 0.9766233766233766,
+      "grad_norm": 10.427618980407715,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 6.4078,
+      "step": 94
+    },
+    {
+      "epoch": 0.987012987012987,
+      "grad_norm": 10.727428436279297,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 6.5427,
+      "step": 95
+    },
+    {
+      "epoch": 0.9974025974025974,
+      "grad_norm": 14.104158401489258,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 7.616,
+      "step": 96
+    },
+    {
+      "epoch": 1.0077922077922077,
+      "grad_norm": 8.729491233825684,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 3.2676,
+      "step": 97
+    },
+    {
+      "epoch": 1.018181818181818,
+      "grad_norm": 14.363706588745117,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 3.5505,
+      "step": 98
+    },
+    {
+      "epoch": 1.0285714285714285,
+      "grad_norm": 9.730070114135742,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 2.8847,
+      "step": 99
+    },
+    {
+      "epoch": 1.0389610389610389,
+      "grad_norm": 6.3668060302734375,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 2.1662,
+      "step": 100
+    },
+    {
+      "epoch": 1.0389610389610389,
+      "eval_loss": 1.4060604572296143,
+      "eval_runtime": 17.6741,
+      "eval_samples_per_second": 9.166,
+      "eval_steps_per_second": 2.32,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.3180089277546496e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null