Training in progress, step 20, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7efec395f6e926883a47b0f567b116b34de3643d8328e5a78c9f9903ff2d9a58
 size 17640136

 version https://git-lfs.github.com/spec/v1
+oid sha256:8bbe050bb03dd3e247292f5fa917523247719038cb768c2e1376a00a0239501e
 size 17640136

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a8cd1b16aded8e025927ff9fbb326acd3693aa5dea3cc98876e483ac13193d0
 size 9568884

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd320be88a1b4f2bb13c95f1969c076a0091f4df50f65918746ad6318ed6a5d2
 size 9568884

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f25fd11b6c56f79f3f87a7138e96ebdc8fa6ba4ac58a0040c86d5934744edf26
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a45a4fedf82801e1f01bdbc49ba39d199f480f4311270c10a86b77f6f151c925
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb578e75c11a81e85dda67a691f96ba4793a02960f1409fd3e1511aac873491a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d95f3fb1f9df4cdd5f470d1684a242bf1d1940d47b9622802f603a91ffa5bc0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.119755506515503,
-  "best_model_checkpoint": "miner_id_24/checkpoint-10",
-  "epoch": 0.007112375533428165,
   "eval_steps": 5,
-  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -101,6 +101,92 @@
       "eval_samples_per_second": 4.459,
       "eval_steps_per_second": 2.237,
       "step": 10
     }
   ],
   "logging_steps": 1,
@@ -129,7 +215,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 60100760567808.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.9506233930587769,
+  "best_model_checkpoint": "miner_id_24/checkpoint-20",
+  "epoch": 0.01422475106685633,
   "eval_steps": 5,
+  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.459,
       "eval_steps_per_second": 2.237,
       "step": 10
+    },
+    {
+      "epoch": 0.007823613086770981,
+      "grad_norm": 2.978506326675415,
+      "learning_rate": 0.00019781476007338058,
+      "loss": 2.7264,
+      "step": 11
+    },
+    {
+      "epoch": 0.008534850640113799,
+      "grad_norm": 1.6808420419692993,
+      "learning_rate": 0.0001913545457642601,
+      "loss": 1.2978,
+      "step": 12
+    },
+    {
+      "epoch": 0.009246088193456615,
+      "grad_norm": 2.562319040298462,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 2.1881,
+      "step": 13
+    },
+    {
+      "epoch": 0.00995732574679943,
+      "grad_norm": 1.3067262172698975,
+      "learning_rate": 0.00016691306063588583,
+      "loss": 0.9299,
+      "step": 14
+    },
+    {
+      "epoch": 0.010668563300142247,
+      "grad_norm": 3.9195621013641357,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 3.0389,
+      "step": 15
+    },
+    {
+      "epoch": 0.010668563300142247,
+      "eval_loss": 2.0008676052093506,
+      "eval_runtime": 67.9244,
+      "eval_samples_per_second": 4.373,
+      "eval_steps_per_second": 2.194,
+      "step": 15
+    },
+    {
+      "epoch": 0.011379800853485065,
+      "grad_norm": 3.2669296264648438,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 2.4851,
+      "step": 16
+    },
+    {
+      "epoch": 0.01209103840682788,
+      "grad_norm": 2.9829790592193604,
+      "learning_rate": 0.00011045284632676536,
+      "loss": 1.9611,
+      "step": 17
+    },
+    {
+      "epoch": 0.012802275960170697,
+      "grad_norm": 2.3141636848449707,
+      "learning_rate": 8.954715367323468e-05,
+      "loss": 1.4134,
+      "step": 18
+    },
+    {
+      "epoch": 0.013513513513513514,
+      "grad_norm": 3.255260705947876,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 2.1647,
+      "step": 19
+    },
+    {
+      "epoch": 0.01422475106685633,
+      "grad_norm": 3.2143447399139404,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 2.3063,
+      "step": 20
+    },
+    {
+      "epoch": 0.01422475106685633,
+      "eval_loss": 1.9506233930587769,
+      "eval_runtime": 70.032,
+      "eval_samples_per_second": 4.241,
+      "eval_steps_per_second": 2.128,
+      "step": 20
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 122427475230720.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null