Training in progress, step 75, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +188 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3eca75a43619b328b0443258f8278f9b3a562cbae15a6c0e59428cda3a059049
 size 60599872

 version https://git-lfs.github.com/spec/v1
+oid sha256:89c3cfbc71baa360ea503a04599efc9dfe299a54d04c47b2f646367599cbac9d
 size 60599872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d072ff361a656f4fb6bf1f813c142cd4db273062ba58ca09064e204d22f7b13
 size 121392706

 version https://git-lfs.github.com/spec/v1
+oid sha256:af020e95108d540c6d446acbaabbd2498107f9d85933dc962f0469dddc9c4a38
 size 121392706

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b748591b60e4f7803c525bf83bf57f5919b989bbc618f6902260bf23fc18bb76
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:b49768a88e541f702eb75d71268964d7cc79b72046465ea5ab4d2f7b2684f932
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b5dc3b0f1acb9ea93b9c6ba18200494da8747f8f051a3e59be97c0c11d47f81
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d42e3a6f19e06c36f6182caeab45c4d6cf1899bf44ba738453d442d66c7fa692
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00f4bebdaf9bb1f18217bf256566ced36954aede24a8e4abfda0ad010b774491
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:dedb05ed73814bd7342db7ab5d4bec7aa9950516a77a467f7cfda9f6dec31cc9
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:628054e8d99f9f8d0709763ece645782d6401904f6fd702995f088b3fd95396b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c8d3317a9d670385f3523e97d1d1073e2b084502a4c464fcf0832f7fe80c1c6
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27a06debcc524d5e29377ca1c81e86a2cd28c93506013f68ac7d1bf85491fb4e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:370cee31176b8bff781da8f054b9870dc93c63a8623674218a84718aa7abd3af
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.037851009517908096,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.038272933859586175,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,189 @@
       "eval_samples_per_second": 51.128,
       "eval_steps_per_second": 13.293,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -409,7 +592,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.978203954891981e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.021306684240698814,
+  "best_model_checkpoint": "miner_id_24/checkpoint-75",
+  "epoch": 0.05740940078937926,
   "eval_steps": 25,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 51.128,
       "eval_steps_per_second": 13.293,
       "step": 50
+    },
+    {
+      "epoch": 0.0390383925367779,
+      "grad_norm": 0.3454943597316742,
+      "learning_rate": 5.6472358726979935e-05,
+      "loss": 0.2051,
+      "step": 51
+    },
+    {
+      "epoch": 0.03980385121396962,
+      "grad_norm": 1.5023900270462036,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 0.3154,
+      "step": 52
+    },
+    {
+      "epoch": 0.040569309891161344,
+      "grad_norm": 0.16861777007579803,
+      "learning_rate": 5.352764127302008e-05,
+      "loss": 0.024,
+      "step": 53
+    },
+    {
+      "epoch": 0.04133476856835307,
+      "grad_norm": 0.01335059478878975,
+      "learning_rate": 5.205685918464356e-05,
+      "loss": 0.0005,
+      "step": 54
+    },
+    {
+      "epoch": 0.04210022724554479,
+      "grad_norm": 0.01417592540383339,
+      "learning_rate": 5.058922868516978e-05,
+      "loss": 0.0006,
+      "step": 55
+    },
+    {
+      "epoch": 0.04286568592273651,
+      "grad_norm": 0.010599881410598755,
+      "learning_rate": 4.912632135009769e-05,
+      "loss": 0.0004,
+      "step": 56
+    },
+    {
+      "epoch": 0.043631144599928236,
+      "grad_norm": 0.010219581425189972,
+      "learning_rate": 4.7669703697243516e-05,
+      "loss": 0.0004,
+      "step": 57
+    },
+    {
+      "epoch": 0.04439660327711996,
+      "grad_norm": 0.008394899778068066,
+      "learning_rate": 4.6220935509274235e-05,
+      "loss": 0.0004,
+      "step": 58
+    },
+    {
+      "epoch": 0.04516206195431169,
+      "grad_norm": 0.010442732833325863,
+      "learning_rate": 4.478156816345321e-05,
+      "loss": 0.0004,
+      "step": 59
+    },
+    {
+      "epoch": 0.04592752063150341,
+      "grad_norm": 0.01015259325504303,
+      "learning_rate": 4.3353142970386564e-05,
+      "loss": 0.0004,
+      "step": 60
+    },
+    {
+      "epoch": 0.046692979308695134,
+      "grad_norm": 0.013029181398451328,
+      "learning_rate": 4.19371895235492e-05,
+      "loss": 0.0003,
+      "step": 61
+    },
+    {
+      "epoch": 0.04745843798588686,
+      "grad_norm": 0.0073064109310507774,
+      "learning_rate": 4.053522406135775e-05,
+      "loss": 0.0003,
+      "step": 62
+    },
+    {
+      "epoch": 0.04822389666307858,
+      "grad_norm": 0.2842812240123749,
+      "learning_rate": 3.9148747843544495e-05,
+      "loss": 0.1657,
+      "step": 63
+    },
+    {
+      "epoch": 0.0489893553402703,
+      "grad_norm": 0.26676300168037415,
+      "learning_rate": 3.777924554357096e-05,
+      "loss": 0.1517,
+      "step": 64
+    },
+    {
+      "epoch": 0.049754814017462026,
+      "grad_norm": 0.5113205909729004,
+      "learning_rate": 3.642818365880224e-05,
+      "loss": 0.1416,
+      "step": 65
+    },
+    {
+      "epoch": 0.05052027269465375,
+      "grad_norm": 0.19968412816524506,
+      "learning_rate": 3.509700894014496e-05,
+      "loss": 0.0041,
+      "step": 66
+    },
+    {
+      "epoch": 0.05128573137184547,
+      "grad_norm": 0.08529309928417206,
+      "learning_rate": 3.378714684283011e-05,
+      "loss": 0.0021,
+      "step": 67
+    },
+    {
+      "epoch": 0.052051190049037195,
+      "grad_norm": 0.03840894624590874,
+      "learning_rate": 3.250000000000001e-05,
+      "loss": 0.0011,
+      "step": 68
+    },
+    {
+      "epoch": 0.05281664872622892,
+      "grad_norm": 0.02306171879172325,
+      "learning_rate": 3.123694672073344e-05,
+      "loss": 0.0006,
+      "step": 69
+    },
+    {
+      "epoch": 0.05358210740342064,
+      "grad_norm": 0.012097193859517574,
+      "learning_rate": 2.9999339514117912e-05,
+      "loss": 0.0004,
+      "step": 70
+    },
+    {
+      "epoch": 0.054347566080612364,
+      "grad_norm": 0.010973786003887653,
+      "learning_rate": 2.8788503640948912e-05,
+      "loss": 0.0004,
+      "step": 71
+    },
+    {
+      "epoch": 0.055113024757804094,
+      "grad_norm": 0.01180847268551588,
+      "learning_rate": 2.760573569460757e-05,
+      "loss": 0.0004,
+      "step": 72
+    },
+    {
+      "epoch": 0.05587848343499582,
+      "grad_norm": 0.010331504046916962,
+      "learning_rate": 2.645230221263596e-05,
+      "loss": 0.0004,
+      "step": 73
+    },
+    {
+      "epoch": 0.05664394211218754,
+      "grad_norm": 0.012231193482875824,
+      "learning_rate": 2.53294383204969e-05,
+      "loss": 0.0004,
+      "step": 74
+    },
+    {
+      "epoch": 0.05740940078937926,
+      "grad_norm": 0.009561908431351185,
+      "learning_rate": 2.423834640897079e-05,
+      "loss": 0.0003,
+      "step": 75
+    },
+    {
+      "epoch": 0.05740940078937926,
+      "eval_loss": 0.021306684240698814,
+      "eval_runtime": 1.043,
+      "eval_samples_per_second": 47.938,
+      "eval_steps_per_second": 12.464,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.482214844275098e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null