Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d83d3ac5bcd107eaf323974c803a00234d5c1a8a922c2ef8fbc680907a4a1d0f
 size 140815952

 version https://git-lfs.github.com/spec/v1
+oid sha256:557f788ac8f9f84fb1529be7c94cd42b90c8100cb0ecb95b27ccc921b56ff6fb
 size 140815952

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b14f02511295c6abf37352d794e6932d9b597e1d52a07700782796e3b46c1f67
 size 281824770

 version https://git-lfs.github.com/spec/v1
+oid sha256:99104d29dfdc693f297ee344b476497765ac2850f0e40c790993caede0c0321a
 size 281824770

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00a895e63d6b3a22126d047733370fc31baad0f2ed2c6c4e5dc548933185505f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:662ed273284082075a9a8743bf567e4a0231d807d0b53d1e58173ef5539ba37d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79f5b4ba066d00b62be68b9f9ec9376def1ffea9a45f98d620f3198033186a6a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c9fd70aa4cf68daad2242bc04a8a03f22adc681e42e4ebf5294902cea9d0a87
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.1213467121124268,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.0029549954197570995,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 41.696,
       "eval_steps_per_second": 20.848,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3864241215897600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.066779136657715,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.005909990839514199,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 41.696,
       "eval_steps_per_second": 20.848,
       "step": 50
+    },
+    {
+      "epoch": 0.0030140953281522415,
+      "grad_norm": 5.36259126663208,
+      "learning_rate": 9.628188298907782e-05,
+      "loss": 2.25,
+      "step": 51
+    },
+    {
+      "epoch": 0.003073195236547383,
+      "grad_norm": 4.400323867797852,
+      "learning_rate": 9.592434928729616e-05,
+      "loss": 2.3144,
+      "step": 52
+    },
+    {
+      "epoch": 0.003132295144942525,
+      "grad_norm": 4.434739112854004,
+      "learning_rate": 9.555113246230442e-05,
+      "loss": 2.2359,
+      "step": 53
+    },
+    {
+      "epoch": 0.0031913950533376673,
+      "grad_norm": 3.8840668201446533,
+      "learning_rate": 9.516235996730645e-05,
+      "loss": 2.1431,
+      "step": 54
+    },
+    {
+      "epoch": 0.0032504949617328093,
+      "grad_norm": 3.4554171562194824,
+      "learning_rate": 9.475816456775313e-05,
+      "loss": 2.3377,
+      "step": 55
+    },
+    {
+      "epoch": 0.0033095948701279514,
+      "grad_norm": 3.1983530521392822,
+      "learning_rate": 9.43386842960031e-05,
+      "loss": 2.0718,
+      "step": 56
+    },
+    {
+      "epoch": 0.0033686947785230934,
+      "grad_norm": 3.158194065093994,
+      "learning_rate": 9.39040624041849e-05,
+      "loss": 2.1517,
+      "step": 57
+    },
+    {
+      "epoch": 0.0034277946869182355,
+      "grad_norm": 3.890373468399048,
+      "learning_rate": 9.345444731527642e-05,
+      "loss": 2.441,
+      "step": 58
+    },
+    {
+      "epoch": 0.003486894595313377,
+      "grad_norm": 3.167813777923584,
+      "learning_rate": 9.298999257241863e-05,
+      "loss": 2.2091,
+      "step": 59
+    },
+    {
+      "epoch": 0.003545994503708519,
+      "grad_norm": 3.1658525466918945,
+      "learning_rate": 9.251085678648072e-05,
+      "loss": 2.0947,
+      "step": 60
+    },
+    {
+      "epoch": 0.003605094412103661,
+      "grad_norm": 3.408245325088501,
+      "learning_rate": 9.201720358189464e-05,
+      "loss": 2.2448,
+      "step": 61
+    },
+    {
+      "epoch": 0.0036641943204988032,
+      "grad_norm": 3.817218542098999,
+      "learning_rate": 9.150920154077754e-05,
+      "loss": 2.2507,
+      "step": 62
+    },
+    {
+      "epoch": 0.0037232942288939453,
+      "grad_norm": 3.1942789554595947,
+      "learning_rate": 9.098702414536107e-05,
+      "loss": 1.9487,
+      "step": 63
+    },
+    {
+      "epoch": 0.0037823941372890873,
+      "grad_norm": 4.15613317489624,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 2.2011,
+      "step": 64
+    },
+    {
+      "epoch": 0.0038414940456842294,
+      "grad_norm": 3.4071335792541504,
+      "learning_rate": 8.9900861364012e-05,
+      "loss": 1.9582,
+      "step": 65
+    },
+    {
+      "epoch": 0.003900593954079371,
+      "grad_norm": 3.021066665649414,
+      "learning_rate": 8.933724690167417e-05,
+      "loss": 2.3522,
+      "step": 66
+    },
+    {
+      "epoch": 0.003959693862474513,
+      "grad_norm": 3.616442918777466,
+      "learning_rate": 8.876019880555649e-05,
+      "loss": 2.098,
+      "step": 67
+    },
+    {
+      "epoch": 0.004018793770869655,
+      "grad_norm": 2.8962440490722656,
+      "learning_rate": 8.816991413705516e-05,
+      "loss": 2.0984,
+      "step": 68
+    },
+    {
+      "epoch": 0.004077893679264797,
+      "grad_norm": 3.579745292663574,
+      "learning_rate": 8.756659447784368e-05,
+      "loss": 2.0251,
+      "step": 69
+    },
+    {
+      "epoch": 0.004136993587659939,
+      "grad_norm": 3.775783061981201,
+      "learning_rate": 8.695044586103296e-05,
+      "loss": 2.119,
+      "step": 70
+    },
+    {
+      "epoch": 0.004196093496055081,
+      "grad_norm": 3.080296754837036,
+      "learning_rate": 8.632167870081121e-05,
+      "loss": 2.2573,
+      "step": 71
+    },
+    {
+      "epoch": 0.004255193404450223,
+      "grad_norm": 2.8051774501800537,
+      "learning_rate": 8.568050772058762e-05,
+      "loss": 1.9605,
+      "step": 72
+    },
+    {
+      "epoch": 0.004314293312845365,
+      "grad_norm": 2.691725730895996,
+      "learning_rate": 8.502715187966455e-05,
+      "loss": 1.9226,
+      "step": 73
+    },
+    {
+      "epoch": 0.004373393221240507,
+      "grad_norm": 2.9309446811676025,
+      "learning_rate": 8.436183429846313e-05,
+      "loss": 1.8635,
+      "step": 74
+    },
+    {
+      "epoch": 0.0044324931296356495,
+      "grad_norm": 3.0920376777648926,
+      "learning_rate": 8.368478218232787e-05,
+      "loss": 2.3189,
+      "step": 75
+    },
+    {
+      "epoch": 0.004491593038030791,
+      "grad_norm": 3.608562707901001,
+      "learning_rate": 8.299622674393614e-05,
+      "loss": 2.1573,
+      "step": 76
+    },
+    {
+      "epoch": 0.004550692946425933,
+      "grad_norm": 3.4357681274414062,
+      "learning_rate": 8.229640312433937e-05,
+      "loss": 2.3833,
+      "step": 77
+    },
+    {
+      "epoch": 0.004609792854821075,
+      "grad_norm": 3.2600772380828857,
+      "learning_rate": 8.158555031266254e-05,
+      "loss": 1.8943,
+      "step": 78
+    },
+    {
+      "epoch": 0.004668892763216217,
+      "grad_norm": 3.176687002182007,
+      "learning_rate": 8.086391106448965e-05,
+      "loss": 1.8515,
+      "step": 79
+    },
+    {
+      "epoch": 0.004727992671611359,
+      "grad_norm": 3.3577382564544678,
+      "learning_rate": 8.013173181896283e-05,
+      "loss": 1.8858,
+      "step": 80
+    },
+    {
+      "epoch": 0.004787092580006501,
+      "grad_norm": 3.1467320919036865,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 2.0871,
+      "step": 81
+    },
+    {
+      "epoch": 0.004846192488401643,
+      "grad_norm": 2.7516732215881348,
+      "learning_rate": 7.863675700402526e-05,
+      "loss": 1.8316,
+      "step": 82
+    },
+    {
+      "epoch": 0.004905292396796785,
+      "grad_norm": 3.2467401027679443,
+      "learning_rate": 7.787447196714427e-05,
+      "loss": 2.0702,
+      "step": 83
+    },
+    {
+      "epoch": 0.004964392305191927,
+      "grad_norm": 3.381272315979004,
+      "learning_rate": 7.710266782362247e-05,
+      "loss": 2.2569,
+      "step": 84
+    },
+    {
+      "epoch": 0.005023492213587069,
+      "grad_norm": 2.826927661895752,
+      "learning_rate": 7.63216081438678e-05,
+      "loss": 2.1583,
+      "step": 85
+    },
+    {
+      "epoch": 0.005082592121982211,
+      "grad_norm": 3.259561061859131,
+      "learning_rate": 7.553155965904535e-05,
+      "loss": 1.9269,
+      "step": 86
+    },
+    {
+      "epoch": 0.005141692030377353,
+      "grad_norm": 3.7768051624298096,
+      "learning_rate": 7.473279216998895e-05,
+      "loss": 2.362,
+      "step": 87
+    },
+    {
+      "epoch": 0.005200791938772495,
+      "grad_norm": 2.951033592224121,
+      "learning_rate": 7.392557845506432e-05,
+      "loss": 2.0554,
+      "step": 88
+    },
+    {
+      "epoch": 0.005259891847167637,
+      "grad_norm": 2.699878454208374,
+      "learning_rate": 7.311019417701566e-05,
+      "loss": 1.6497,
+      "step": 89
+    },
+    {
+      "epoch": 0.0053189917555627785,
+      "grad_norm": 2.780122756958008,
+      "learning_rate": 7.228691778882693e-05,
+      "loss": 1.904,
+      "step": 90
+    },
+    {
+      "epoch": 0.0053780916639579205,
+      "grad_norm": 2.7070605754852295,
+      "learning_rate": 7.145603043863045e-05,
+      "loss": 1.8025,
+      "step": 91
+    },
+    {
+      "epoch": 0.005437191572353063,
+      "grad_norm": 2.740710973739624,
+      "learning_rate": 7.061781587369519e-05,
+      "loss": 1.9662,
+      "step": 92
+    },
+    {
+      "epoch": 0.005496291480748205,
+      "grad_norm": 3.0559332370758057,
+      "learning_rate": 6.977256034352712e-05,
+      "loss": 2.0185,
+      "step": 93
+    },
+    {
+      "epoch": 0.005555391389143347,
+      "grad_norm": 2.9242119789123535,
+      "learning_rate": 6.892055250211552e-05,
+      "loss": 2.0248,
+      "step": 94
+    },
+    {
+      "epoch": 0.005614491297538489,
+      "grad_norm": 2.762571334838867,
+      "learning_rate": 6.806208330935766e-05,
+      "loss": 1.7682,
+      "step": 95
+    },
+    {
+      "epoch": 0.005673591205933631,
+      "grad_norm": 2.9518630504608154,
+      "learning_rate": 6.719744593169641e-05,
+      "loss": 1.88,
+      "step": 96
+    },
+    {
+      "epoch": 0.005732691114328773,
+      "grad_norm": 2.976564645767212,
+      "learning_rate": 6.632693564200416e-05,
+      "loss": 1.8969,
+      "step": 97
+    },
+    {
+      "epoch": 0.005791791022723915,
+      "grad_norm": 2.815509796142578,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 1.972,
+      "step": 98
+    },
+    {
+      "epoch": 0.005850890931119057,
+      "grad_norm": 3.5287201404571533,
+      "learning_rate": 6.456948734446624e-05,
+      "loss": 2.125,
+      "step": 99
+    },
+    {
+      "epoch": 0.005909990839514199,
+      "grad_norm": 3.9216277599334717,
+      "learning_rate": 6.368314950360415e-05,
+      "loss": 1.9601,
+      "step": 100
+    },
+    {
+      "epoch": 0.005909990839514199,
+      "eval_loss": 2.066779136657715,
+      "eval_runtime": 683.3126,
+      "eval_samples_per_second": 41.706,
+      "eval_steps_per_second": 20.853,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7728482431795200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null