Training in progress, step 25, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_config.json +3 -3
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +53 -53
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,12 +20,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
     "up_proj",
-    "k_proj",
-    "down_proj",
     "gate_proj",
     "o_proj",
     "q_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "up_proj",
     "gate_proj",
+    "down_proj",
+    "k_proj",
     "o_proj",
+    "v_proj",
     "q_proj"
   ],
   "task_type": "CAUSAL_LM",

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28d188f7fdb1614fff7516bcb2a64d97efd1597a52d86de66c194cfd5eaa2403
 size 319876032

 version https://git-lfs.github.com/spec/v1
+oid sha256:6be8897042dd870908e2b95e92353fbf5ecafc46d10f1068c1bf13a0323783cd
 size 319876032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0545feb5ba84345644d2e08069cd632316b9e8a53ba0715a3f5aec63a88ec9a2
 size 640009682

 version https://git-lfs.github.com/spec/v1
+oid sha256:85fdb716a1bd32a486034ac4b4c8a8427606a36e201d6602c1bbb2f032747476
 size 640009682

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.0025754901580512524,
   "best_model_checkpoint": "miner_id_24/checkpoint-25",
   "epoch": 2.2569832402234637,
   "eval_steps": 25,
@@ -10,7 +10,7 @@
   "log_history": [
     {
       "epoch": 0.0893854748603352,
-      "grad_norm": 8.0423002243042,
       "learning_rate": 5e-05,
       "loss": 5.0286,
       "step": 1
@@ -18,185 +18,185 @@
     {
       "epoch": 0.0893854748603352,
       "eval_loss": 4.40208625793457,
-      "eval_runtime": 3.2539,
-      "eval_samples_per_second": 23.049,
-      "eval_steps_per_second": 3.073,
       "step": 1
     },
     {
       "epoch": 0.1787709497206704,
-      "grad_norm": 7.9249444007873535,
       "learning_rate": 0.0001,
       "loss": 3.9074,
       "step": 2
     },
     {
       "epoch": 0.2681564245810056,
-      "grad_norm": 7.390117645263672,
       "learning_rate": 9.975923633360985e-05,
-      "loss": 4.5775,
       "step": 3
     },
     {
       "epoch": 0.3575418994413408,
-      "grad_norm": 7.0057454109191895,
       "learning_rate": 9.903926402016153e-05,
-      "loss": 2.0458,
       "step": 4
     },
     {
       "epoch": 0.44692737430167595,
-      "grad_norm": 4.7510576248168945,
       "learning_rate": 9.784701678661045e-05,
-      "loss": 0.8646,
       "step": 5
     },
     {
       "epoch": 0.5363128491620112,
-      "grad_norm": 3.363969564437866,
       "learning_rate": 9.619397662556435e-05,
-      "loss": 1.2702,
       "step": 6
     },
     {
       "epoch": 0.6256983240223464,
-      "grad_norm": 1.331066608428955,
       "learning_rate": 9.409606321741775e-05,
-      "loss": 0.1811,
       "step": 7
     },
     {
       "epoch": 0.7150837988826816,
-      "grad_norm": 2.870572566986084,
       "learning_rate": 9.157348061512727e-05,
-      "loss": 0.1453,
       "step": 8
     },
     {
       "epoch": 0.8044692737430168,
-      "grad_norm": 1.3020648956298828,
       "learning_rate": 8.865052266813685e-05,
-      "loss": 0.5605,
       "step": 9
     },
     {
       "epoch": 0.8938547486033519,
-      "grad_norm": 0.14853540062904358,
       "learning_rate": 8.535533905932738e-05,
       "loss": 0.0064,
       "step": 10
     },
     {
       "epoch": 0.9832402234636871,
-      "grad_norm": 0.43610215187072754,
       "learning_rate": 8.171966420818228e-05,
-      "loss": 0.0215,
       "step": 11
     },
     {
       "epoch": 1.0837988826815643,
-      "grad_norm": 2.341407299041748,
       "learning_rate": 7.777851165098012e-05,
-      "loss": 0.902,
       "step": 12
     },
     {
       "epoch": 1.1731843575418994,
-      "grad_norm": 0.07661772519350052,
       "learning_rate": 7.35698368412999e-05,
       "loss": 0.0027,
       "step": 13
     },
     {
       "epoch": 1.2625698324022347,
-      "grad_norm": 1.0086647272109985,
       "learning_rate": 6.91341716182545e-05,
-      "loss": 0.3641,
       "step": 14
     },
     {
       "epoch": 1.3519553072625698,
-      "grad_norm": 0.025730464607477188,
       "learning_rate": 6.451423386272312e-05,
-      "loss": 0.0007,
       "step": 15
     },
     {
       "epoch": 1.441340782122905,
-      "grad_norm": 0.12439494580030441,
       "learning_rate": 5.9754516100806423e-05,
-      "loss": 0.0014,
       "step": 16
     },
     {
       "epoch": 1.5307262569832403,
-      "grad_norm": 1.2186359167099,
       "learning_rate": 5.490085701647805e-05,
-      "loss": 0.2713,
       "step": 17
     },
     {
       "epoch": 1.6201117318435754,
-      "grad_norm": 0.04545736312866211,
       "learning_rate": 5e-05,
       "loss": 0.0011,
       "step": 18
     },
     {
       "epoch": 1.7094972067039107,
-      "grad_norm": 0.26565396785736084,
       "learning_rate": 4.509914298352197e-05,
-      "loss": 0.0092,
       "step": 19
     },
     {
       "epoch": 1.7988826815642458,
-      "grad_norm": 0.9349803328514099,
       "learning_rate": 4.0245483899193595e-05,
-      "loss": 0.2072,
       "step": 20
     },
     {
       "epoch": 1.888268156424581,
-      "grad_norm": 0.18692974746227264,
       "learning_rate": 3.5485766137276894e-05,
-      "loss": 0.0045,
       "step": 21
     },
     {
       "epoch": 1.9776536312849162,
-      "grad_norm": 0.05311136692762375,
       "learning_rate": 3.086582838174551e-05,
-      "loss": 0.0012,
       "step": 22
     },
     {
       "epoch": 2.078212290502793,
-      "grad_norm": 0.5805853605270386,
       "learning_rate": 2.6430163158700115e-05,
-      "loss": 0.0816,
       "step": 23
     },
     {
       "epoch": 2.1675977653631286,
-      "grad_norm": 0.23314891755580902,
       "learning_rate": 2.2221488349019903e-05,
-      "loss": 0.004,
       "step": 24
     },
     {
       "epoch": 2.2569832402234637,
-      "grad_norm": 0.6197263598442078,
       "learning_rate": 1.8280335791817733e-05,
-      "loss": 0.1083,
       "step": 25
     },
     {
       "epoch": 2.2569832402234637,
-      "eval_loss": 0.0025754901580512524,
-      "eval_runtime": 3.2587,
-      "eval_samples_per_second": 23.015,
-      "eval_steps_per_second": 3.069,
       "step": 25
     }
   ],

 {
+  "best_metric": 0.002759997732937336,
   "best_model_checkpoint": "miner_id_24/checkpoint-25",
   "epoch": 2.2569832402234637,
   "eval_steps": 25,
   "log_history": [
     {
       "epoch": 0.0893854748603352,
+      "grad_norm": 8.261157989501953,
       "learning_rate": 5e-05,
       "loss": 5.0286,
       "step": 1
     {
       "epoch": 0.0893854748603352,
       "eval_loss": 4.40208625793457,
+      "eval_runtime": 3.2436,
+      "eval_samples_per_second": 23.122,
+      "eval_steps_per_second": 3.083,
       "step": 1
     },
     {
       "epoch": 0.1787709497206704,
+      "grad_norm": 8.240191459655762,
       "learning_rate": 0.0001,
       "loss": 3.9074,
       "step": 2
     },
     {
       "epoch": 0.2681564245810056,
+      "grad_norm": 7.679316997528076,
       "learning_rate": 9.975923633360985e-05,
+      "loss": 4.5677,
       "step": 3
     },
     {
       "epoch": 0.3575418994413408,
+      "grad_norm": 7.1442694664001465,
       "learning_rate": 9.903926402016153e-05,
+      "loss": 2.0469,
       "step": 4
     },
     {
       "epoch": 0.44692737430167595,
+      "grad_norm": 4.853695392608643,
       "learning_rate": 9.784701678661045e-05,
+      "loss": 0.8659,
       "step": 5
     },
     {
       "epoch": 0.5363128491620112,
+      "grad_norm": 3.391883134841919,
       "learning_rate": 9.619397662556435e-05,
+      "loss": 1.2657,
       "step": 6
     },
     {
       "epoch": 0.6256983240223464,
+      "grad_norm": 1.3433865308761597,
       "learning_rate": 9.409606321741775e-05,
+      "loss": 0.1775,
       "step": 7
     },
     {
       "epoch": 0.7150837988826816,
+      "grad_norm": 2.873962640762329,
       "learning_rate": 9.157348061512727e-05,
+      "loss": 0.1425,
       "step": 8
     },
     {
       "epoch": 0.8044692737430168,
+      "grad_norm": 1.314467430114746,
       "learning_rate": 8.865052266813685e-05,
+      "loss": 0.5533,
       "step": 9
     },
     {
       "epoch": 0.8938547486033519,
+      "grad_norm": 0.15874236822128296,
       "learning_rate": 8.535533905932738e-05,
       "loss": 0.0064,
       "step": 10
     },
     {
       "epoch": 0.9832402234636871,
+      "grad_norm": 0.46788260340690613,
       "learning_rate": 8.171966420818228e-05,
+      "loss": 0.0222,
       "step": 11
     },
     {
       "epoch": 1.0837988826815643,
+      "grad_norm": 2.329991579055786,
       "learning_rate": 7.777851165098012e-05,
+      "loss": 0.8987,
       "step": 12
     },
     {
       "epoch": 1.1731843575418994,
+      "grad_norm": 0.0806741714477539,
       "learning_rate": 7.35698368412999e-05,
       "loss": 0.0027,
       "step": 13
     },
     {
       "epoch": 1.2625698324022347,
+      "grad_norm": 0.9975904226303101,
       "learning_rate": 6.91341716182545e-05,
+      "loss": 0.3651,
       "step": 14
     },
     {
       "epoch": 1.3519553072625698,
+      "grad_norm": 0.031698644161224365,
       "learning_rate": 6.451423386272312e-05,
+      "loss": 0.0008,
       "step": 15
     },
     {
       "epoch": 1.441340782122905,
+      "grad_norm": 0.15326736867427826,
       "learning_rate": 5.9754516100806423e-05,
+      "loss": 0.0016,
       "step": 16
     },
     {
       "epoch": 1.5307262569832403,
+      "grad_norm": 1.4065415859222412,
       "learning_rate": 5.490085701647805e-05,
+      "loss": 0.2754,
       "step": 17
     },
     {
       "epoch": 1.6201117318435754,
+      "grad_norm": 0.047310031950473785,
       "learning_rate": 5e-05,
       "loss": 0.0011,
       "step": 18
     },
     {
       "epoch": 1.7094972067039107,
+      "grad_norm": 0.2543170750141144,
       "learning_rate": 4.509914298352197e-05,
+      "loss": 0.0083,
       "step": 19
     },
     {
       "epoch": 1.7988826815642458,
+      "grad_norm": 0.9412180781364441,
       "learning_rate": 4.0245483899193595e-05,
+      "loss": 0.2082,
       "step": 20
     },
     {
       "epoch": 1.888268156424581,
+      "grad_norm": 0.1728094518184662,
       "learning_rate": 3.5485766137276894e-05,
+      "loss": 0.0041,
       "step": 21
     },
     {
       "epoch": 1.9776536312849162,
+      "grad_norm": 0.04329400509595871,
       "learning_rate": 3.086582838174551e-05,
+      "loss": 0.001,
       "step": 22
     },
     {
       "epoch": 2.078212290502793,
+      "grad_norm": 0.5819940567016602,
       "learning_rate": 2.6430163158700115e-05,
+      "loss": 0.0821,
       "step": 23
     },
     {
       "epoch": 2.1675977653631286,
+      "grad_norm": 0.18595924973487854,
       "learning_rate": 2.2221488349019903e-05,
+      "loss": 0.0032,
       "step": 24
     },
     {
       "epoch": 2.2569832402234637,
+      "grad_norm": 0.619234025478363,
       "learning_rate": 1.8280335791817733e-05,
+      "loss": 0.1096,
       "step": 25
     },
     {
       "epoch": 2.2569832402234637,
+      "eval_loss": 0.002759997732937336,
+      "eval_runtime": 3.2425,
+      "eval_samples_per_second": 23.131,
+      "eval_steps_per_second": 3.084,
       "step": 25
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b42f1ce68c7b4db4cb68bcee97e43a6c1d797d25c673c723efcb20fa6d8d4fb5
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:36764b90adc2cda234cb27fbe5577f8dd90ec791c0bc4559b1a90ac18fa5b20d
 size 6776