Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e83cdcdc40c06f34270d642f2a210b6274320ecbd1aae5d5a2a5549bc4b3aeb
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:90e1ecd5ae1796a40c42cc53e2b8baa6ae9e576fdaf8002f53d5fc55ab6bbe2f
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9ea358d6504e20e78a30db833657efd6205b00cc5fde3ab7cde971fd9dcdd85
 size 1342555602

 version https://git-lfs.github.com/spec/v1
+oid sha256:b74f45887eb2bf8a4c01583be5dd4fbec0a4170f7a4e1472ab36942385358ca4
 size 1342555602

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa76c6d21ca243bcfa53ebcdcbf2b0d31aa826505d3d1e738aa835815512076b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f46da81ba631b64de591d5d73e697ebef2af8b3cb47a5eff2c98fdadd25e3f5
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79f5b4ba066d00b62be68b9f9ec9376def1ffea9a45f98d620f3198033186a6a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c9fd70aa4cf68daad2242bc04a8a03f22adc681e42e4ebf5294902cea9d0a87
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.037399664521217346,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.016857720836142953,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 12.306,
       "eval_steps_per_second": 6.154,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.19077308849193e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.02691887505352497,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.033715441672285906,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.306,
       "eval_steps_per_second": 6.154,
       "step": 50
+    },
+    {
+      "epoch": 0.017194875252865813,
+      "grad_norm": 6.155975341796875,
+      "learning_rate": 9.628188298907782e-05,
+      "loss": 0.169,
+      "step": 51
+    },
+    {
+      "epoch": 0.01753202966958867,
+      "grad_norm": 2.993195056915283,
+      "learning_rate": 9.592434928729616e-05,
+      "loss": 0.1762,
+      "step": 52
+    },
+    {
+      "epoch": 0.01786918408631153,
+      "grad_norm": 2.0027689933776855,
+      "learning_rate": 9.555113246230442e-05,
+      "loss": 0.0609,
+      "step": 53
+    },
+    {
+      "epoch": 0.01820633850303439,
+      "grad_norm": 2.9277846813201904,
+      "learning_rate": 9.516235996730645e-05,
+      "loss": 0.088,
+      "step": 54
+    },
+    {
+      "epoch": 0.018543492919757248,
+      "grad_norm": 5.291700839996338,
+      "learning_rate": 9.475816456775313e-05,
+      "loss": 0.0758,
+      "step": 55
+    },
+    {
+      "epoch": 0.018880647336480108,
+      "grad_norm": 4.0121893882751465,
+      "learning_rate": 9.43386842960031e-05,
+      "loss": 0.1181,
+      "step": 56
+    },
+    {
+      "epoch": 0.01921780175320297,
+      "grad_norm": 3.088758945465088,
+      "learning_rate": 9.39040624041849e-05,
+      "loss": 0.0663,
+      "step": 57
+    },
+    {
+      "epoch": 0.019554956169925825,
+      "grad_norm": 5.164242744445801,
+      "learning_rate": 9.345444731527642e-05,
+      "loss": 0.126,
+      "step": 58
+    },
+    {
+      "epoch": 0.019892110586648686,
+      "grad_norm": 5.446705341339111,
+      "learning_rate": 9.298999257241863e-05,
+      "loss": 0.039,
+      "step": 59
+    },
+    {
+      "epoch": 0.020229265003371546,
+      "grad_norm": 1.3323512077331543,
+      "learning_rate": 9.251085678648072e-05,
+      "loss": 0.0232,
+      "step": 60
+    },
+    {
+      "epoch": 0.020566419420094403,
+      "grad_norm": 4.320119857788086,
+      "learning_rate": 9.201720358189464e-05,
+      "loss": 0.0793,
+      "step": 61
+    },
+    {
+      "epoch": 0.020903573836817263,
+      "grad_norm": 2.836113929748535,
+      "learning_rate": 9.150920154077754e-05,
+      "loss": 0.045,
+      "step": 62
+    },
+    {
+      "epoch": 0.02124072825354012,
+      "grad_norm": 3.192572593688965,
+      "learning_rate": 9.098702414536107e-05,
+      "loss": 0.0605,
+      "step": 63
+    },
+    {
+      "epoch": 0.02157788267026298,
+      "grad_norm": 5.8117995262146,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.0745,
+      "step": 64
+    },
+    {
+      "epoch": 0.02191503708698584,
+      "grad_norm": 2.2573840618133545,
+      "learning_rate": 8.9900861364012e-05,
+      "loss": 0.0143,
+      "step": 65
+    },
+    {
+      "epoch": 0.022252191503708697,
+      "grad_norm": 5.993143558502197,
+      "learning_rate": 8.933724690167417e-05,
+      "loss": 0.1675,
+      "step": 66
+    },
+    {
+      "epoch": 0.022589345920431558,
+      "grad_norm": 12.099316596984863,
+      "learning_rate": 8.876019880555649e-05,
+      "loss": 0.2099,
+      "step": 67
+    },
+    {
+      "epoch": 0.022926500337154418,
+      "grad_norm": 8.319787979125977,
+      "learning_rate": 8.816991413705516e-05,
+      "loss": 0.2096,
+      "step": 68
+    },
+    {
+      "epoch": 0.023263654753877275,
+      "grad_norm": 3.1334519386291504,
+      "learning_rate": 8.756659447784368e-05,
+      "loss": 0.0677,
+      "step": 69
+    },
+    {
+      "epoch": 0.023600809170600135,
+      "grad_norm": 3.2885525226593018,
+      "learning_rate": 8.695044586103296e-05,
+      "loss": 0.0135,
+      "step": 70
+    },
+    {
+      "epoch": 0.023937963587322995,
+      "grad_norm": 3.7970714569091797,
+      "learning_rate": 8.632167870081121e-05,
+      "loss": 0.0317,
+      "step": 71
+    },
+    {
+      "epoch": 0.024275118004045852,
+      "grad_norm": 6.135300636291504,
+      "learning_rate": 8.568050772058762e-05,
+      "loss": 0.1099,
+      "step": 72
+    },
+    {
+      "epoch": 0.024612272420768713,
+      "grad_norm": 8.074009895324707,
+      "learning_rate": 8.502715187966455e-05,
+      "loss": 0.1517,
+      "step": 73
+    },
+    {
+      "epoch": 0.024949426837491573,
+      "grad_norm": 4.536118507385254,
+      "learning_rate": 8.436183429846313e-05,
+      "loss": 0.0957,
+      "step": 74
+    },
+    {
+      "epoch": 0.02528658125421443,
+      "grad_norm": 1.107986330986023,
+      "learning_rate": 8.368478218232787e-05,
+      "loss": 0.0167,
+      "step": 75
+    },
+    {
+      "epoch": 0.02562373567093729,
+      "grad_norm": 5.888400077819824,
+      "learning_rate": 8.299622674393614e-05,
+      "loss": 0.1375,
+      "step": 76
+    },
+    {
+      "epoch": 0.025960890087660147,
+      "grad_norm": 1.8470762968063354,
+      "learning_rate": 8.229640312433937e-05,
+      "loss": 0.0266,
+      "step": 77
+    },
+    {
+      "epoch": 0.026298044504383007,
+      "grad_norm": 3.479485034942627,
+      "learning_rate": 8.158555031266254e-05,
+      "loss": 0.0995,
+      "step": 78
+    },
+    {
+      "epoch": 0.026635198921105867,
+      "grad_norm": 8.64280891418457,
+      "learning_rate": 8.086391106448965e-05,
+      "loss": 0.1513,
+      "step": 79
+    },
+    {
+      "epoch": 0.026972353337828724,
+      "grad_norm": 9.630158424377441,
+      "learning_rate": 8.013173181896283e-05,
+      "loss": 0.2062,
+      "step": 80
+    },
+    {
+      "epoch": 0.027309507754551585,
+      "grad_norm": 4.263245582580566,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.0471,
+      "step": 81
+    },
+    {
+      "epoch": 0.027646662171274445,
+      "grad_norm": 1.5566385984420776,
+      "learning_rate": 7.863675700402526e-05,
+      "loss": 0.0206,
+      "step": 82
+    },
+    {
+      "epoch": 0.027983816587997302,
+      "grad_norm": 5.3694539070129395,
+      "learning_rate": 7.787447196714427e-05,
+      "loss": 0.0735,
+      "step": 83
+    },
+    {
+      "epoch": 0.028320971004720162,
+      "grad_norm": 8.812443733215332,
+      "learning_rate": 7.710266782362247e-05,
+      "loss": 0.1369,
+      "step": 84
+    },
+    {
+      "epoch": 0.028658125421443022,
+      "grad_norm": 2.8177266120910645,
+      "learning_rate": 7.63216081438678e-05,
+      "loss": 0.0169,
+      "step": 85
+    },
+    {
+      "epoch": 0.02899527983816588,
+      "grad_norm": 6.240541458129883,
+      "learning_rate": 7.553155965904535e-05,
+      "loss": 0.1315,
+      "step": 86
+    },
+    {
+      "epoch": 0.02933243425488874,
+      "grad_norm": 4.399284839630127,
+      "learning_rate": 7.473279216998895e-05,
+      "loss": 0.0642,
+      "step": 87
+    },
+    {
+      "epoch": 0.029669588671611596,
+      "grad_norm": 4.220780372619629,
+      "learning_rate": 7.392557845506432e-05,
+      "loss": 0.0912,
+      "step": 88
+    },
+    {
+      "epoch": 0.030006743088334457,
+      "grad_norm": 4.83798885345459,
+      "learning_rate": 7.311019417701566e-05,
+      "loss": 0.0563,
+      "step": 89
+    },
+    {
+      "epoch": 0.030343897505057317,
+      "grad_norm": 10.673697471618652,
+      "learning_rate": 7.228691778882693e-05,
+      "loss": 0.1215,
+      "step": 90
+    },
+    {
+      "epoch": 0.030681051921780174,
+      "grad_norm": 4.015604019165039,
+      "learning_rate": 7.145603043863045e-05,
+      "loss": 0.0804,
+      "step": 91
+    },
+    {
+      "epoch": 0.031018206338503034,
+      "grad_norm": 3.316225290298462,
+      "learning_rate": 7.061781587369519e-05,
+      "loss": 0.0384,
+      "step": 92
+    },
+    {
+      "epoch": 0.031355360755225894,
+      "grad_norm": 0.9016729593276978,
+      "learning_rate": 6.977256034352712e-05,
+      "loss": 0.0101,
+      "step": 93
+    },
+    {
+      "epoch": 0.03169251517194875,
+      "grad_norm": 0.6843580007553101,
+      "learning_rate": 6.892055250211552e-05,
+      "loss": 0.0065,
+      "step": 94
+    },
+    {
+      "epoch": 0.03202966958867161,
+      "grad_norm": 2.6481974124908447,
+      "learning_rate": 6.806208330935766e-05,
+      "loss": 0.0522,
+      "step": 95
+    },
+    {
+      "epoch": 0.03236682400539447,
+      "grad_norm": 0.6568281054496765,
+      "learning_rate": 6.719744593169641e-05,
+      "loss": 0.0057,
+      "step": 96
+    },
+    {
+      "epoch": 0.03270397842211733,
+      "grad_norm": 3.2465243339538574,
+      "learning_rate": 6.632693564200416e-05,
+      "loss": 0.012,
+      "step": 97
+    },
+    {
+      "epoch": 0.033041132838840186,
+      "grad_norm": 5.33789587020874,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.0263,
+      "step": 98
+    },
+    {
+      "epoch": 0.03337828725556305,
+      "grad_norm": 4.04817008972168,
+      "learning_rate": 6.456948734446624e-05,
+      "loss": 0.1354,
+      "step": 99
+    },
+    {
+      "epoch": 0.033715441672285906,
+      "grad_norm": 7.151183128356934,
+      "learning_rate": 6.368314950360415e-05,
+      "loss": 0.0761,
+      "step": 100
+    },
+    {
+      "epoch": 0.033715441672285906,
+      "eval_loss": 0.02691887505352497,
+      "eval_runtime": 406.7579,
+      "eval_samples_per_second": 12.28,
+      "eval_steps_per_second": 6.141,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.438154617698386e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null