Training in progress, step 600, checkpoint

Files changed (4) hide show

checkpoint-600/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
     "q_proj",
-    "k_proj",
-    "v_proj",
     "down_proj",
-    "up_proj",
-    "o_proj"
   ],
   "task_type": null,
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "up_proj",
     "q_proj",
     "down_proj",
+    "gate_proj",
+    "o_proj",
+    "v_proj",
+    "k_proj"
   ],
   "task_type": null,
   "use_dora": false,

checkpoint-600/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19c8540c252a824d6d754fdd21ecf76e0d7e21aa2669d97c4e73518c7e9d9f92
 size 180385008

 version https://git-lfs.github.com/spec/v1
+oid sha256:086001be9d113e39ea20f887c3f3993013cc0ac0f88f742fc05915db95e2bd7a
 size 180385008

checkpoint-600/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f2855ffbdc9d1ddd22056350095a5074c1c2305241e1f296c13a9701a7be225
-size 91855290

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc2937773392399fc6f54c42e09794d3175376650474de330e7eda2a6baab3a2
+size 92431954

checkpoint-600/trainer_state.json CHANGED Viewed

@@ -25,32 +25,32 @@
     },
     {
       "epoch": 0.3574620196604111,
-      "grad_norm": 0.41231265664100647,
       "learning_rate": 9.95497608932715e-05,
-      "loss": 0.1347,
       "step": 400
     },
     {
       "epoch": 0.3574620196604111,
-      "eval_loss": 0.1247013583779335,
-      "eval_runtime": 42.7006,
-      "eval_samples_per_second": 4.239,
-      "eval_steps_per_second": 2.131,
       "step": 400
     },
     {
       "epoch": 0.5361930294906166,
-      "grad_norm": 0.23166905343532562,
       "learning_rate": 9.844466810070319e-05,
-      "loss": 0.1059,
       "step": 600
     },
     {
       "epoch": 0.5361930294906166,
-      "eval_loss": 0.1143762394785881,
-      "eval_runtime": 42.7658,
-      "eval_samples_per_second": 4.232,
-      "eval_steps_per_second": 2.128,
       "step": 600
     }
   ],

     },
     {
       "epoch": 0.3574620196604111,
+      "grad_norm": 0.3873799443244934,
       "learning_rate": 9.95497608932715e-05,
+      "loss": 0.1345,
       "step": 400
     },
     {
       "epoch": 0.3574620196604111,
+      "eval_loss": 0.12613661587238312,
+      "eval_runtime": 44.9042,
+      "eval_samples_per_second": 4.031,
+      "eval_steps_per_second": 2.027,
       "step": 400
     },
     {
       "epoch": 0.5361930294906166,
+      "grad_norm": 0.22678756713867188,
       "learning_rate": 9.844466810070319e-05,
+      "loss": 0.1057,
       "step": 600
     },
     {
       "epoch": 0.5361930294906166,
+      "eval_loss": 0.11514777690172195,
+      "eval_runtime": 44.9314,
+      "eval_samples_per_second": 4.028,
+      "eval_steps_per_second": 2.025,
       "step": 600
     }
   ],