phi-3.5-new

Browse files

Files changed (10) hide show

adapter_config.json +3 -3
adapter_model.safetensors +1 -1
all_results.json +7 -7
eval_results.json +4 -4
runs/Jan13_06-21-44_dmlab/events.out.tfevents.1736742105.dmlab.73737.0 +3 -0
runs/Jan13_06-22-58_dmlab/events.out.tfevents.1736742178.dmlab.74800.0 +3 -0
runs/Jan13_06-22-58_dmlab/events.out.tfevents.1736742767.dmlab.74800.1 +3 -0
train_results.json +3 -3
trainer_state.json +38 -38
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -23,10 +23,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_up_proj",
     "o_proj",
-    "down_proj",
-    "qkv_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "qkv_proj",
     "o_proj",
+    "gate_up_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1de015679f6b9c3f3cebe7a92f3fb63d181165fcdf04bf929c38c658d15a6185
 size 100697728

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8dd3dcd915b2dd761edd13f06737584ebfa1e3321219edc4805c74bef799516
 size 100697728

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 5.0,
-    "eval_loss": 1.0679360628128052,
-    "eval_runtime": 6.7666,
-    "eval_samples_per_second": 2.512,
-    "eval_steps_per_second": 0.739,
     "total_flos": 8689108767160320.0,
-    "train_loss": 1.114040283929734,
-    "train_runtime": 580.4964,
-    "train_samples_per_second": 0.715,
     "train_steps_per_second": 0.181
 }

 {
     "epoch": 5.0,
+    "eval_loss": 1.0177021026611328,
+    "eval_runtime": 6.8483,
+    "eval_samples_per_second": 2.482,
+    "eval_steps_per_second": 0.73,
     "total_flos": 8689108767160320.0,
+    "train_loss": 0.9847308204287575,
+    "train_runtime": 581.6572,
+    "train_samples_per_second": 0.713,
     "train_steps_per_second": 0.181
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 5.0,
-    "eval_loss": 1.0679360628128052,
-    "eval_runtime": 6.7666,
-    "eval_samples_per_second": 2.512,
-    "eval_steps_per_second": 0.739
 }

 {
     "epoch": 5.0,
+    "eval_loss": 1.0177021026611328,
+    "eval_runtime": 6.8483,
+    "eval_samples_per_second": 2.482,
+    "eval_steps_per_second": 0.73
 }

runs/Jan13_06-21-44_dmlab/events.out.tfevents.1736742105.dmlab.73737.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25a48b974ce95793bee33b65bc03651ee64448ca4164acef2c6f8787ec309c9b
+size 8317

runs/Jan13_06-22-58_dmlab/events.out.tfevents.1736742178.dmlab.74800.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a51dd3d43ee98d872ddfc9661657aa68bf569dc4af5fa99ad9fddcbb288374b3
+size 11029

runs/Jan13_06-22-58_dmlab/events.out.tfevents.1736742767.dmlab.74800.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a5c8d05f220923e8c4cf381f7a80873ca0d43fc5573ad7cde483489a80b07c2
+size 354

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 5.0,
     "total_flos": 8689108767160320.0,
-    "train_loss": 1.114040283929734,
-    "train_runtime": 580.4964,
-    "train_samples_per_second": 0.715,
     "train_steps_per_second": 0.181
 }

 {
     "epoch": 5.0,
     "total_flos": 8689108767160320.0,
+    "train_loss": 0.9847308204287575,
+    "train_runtime": 581.6572,
+    "train_samples_per_second": 0.713,
     "train_steps_per_second": 0.181
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 1.0568883419036865,
   "best_model_checkpoint": "/home/labuser/Documents/phi-3/phi-3.5-new/checkpoint-105",
   "epoch": 5.0,
   "eval_steps": 500,
@@ -10,86 +10,86 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.9515901803970337,
-      "learning_rate": 2e-05,
-      "loss": 1.3492,
       "step": 21
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.2440305948257446,
-      "eval_runtime": 6.9085,
-      "eval_samples_per_second": 2.461,
-      "eval_steps_per_second": 0.724,
       "step": 21
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.7905489802360535,
-      "learning_rate": 1.7071067811865477e-05,
-      "loss": 1.1695,
       "step": 42
     },
     {
       "epoch": 2.0,
-      "eval_loss": 1.1394829750061035,
-      "eval_runtime": 6.8809,
-      "eval_samples_per_second": 2.471,
-      "eval_steps_per_second": 0.727,
       "step": 42
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.7479790449142456,
-      "learning_rate": 1e-05,
-      "loss": 1.0622,
       "step": 63
     },
     {
       "epoch": 3.0,
-      "eval_loss": 1.081365942955017,
-      "eval_runtime": 6.9014,
-      "eval_samples_per_second": 2.463,
-      "eval_steps_per_second": 0.724,
       "step": 63
     },
     {
       "epoch": 4.0,
-      "grad_norm": 0.8422548174858093,
-      "learning_rate": 2.9289321881345257e-06,
-      "loss": 1.0051,
       "step": 84
     },
     {
       "epoch": 4.0,
-      "eval_loss": 1.0581644773483276,
-      "eval_runtime": 6.7884,
-      "eval_samples_per_second": 2.504,
-      "eval_steps_per_second": 0.737,
       "step": 84
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.6641820073127747,
       "learning_rate": 0.0,
-      "loss": 0.9842,
       "step": 105
     },
     {
       "epoch": 5.0,
-      "eval_loss": 1.0568883419036865,
-      "eval_runtime": 6.7736,
-      "eval_samples_per_second": 2.51,
-      "eval_steps_per_second": 0.738,
       "step": 105
     },
     {
       "epoch": 5.0,
       "step": 105,
       "total_flos": 8689108767160320.0,
-      "train_loss": 1.114040283929734,
-      "train_runtime": 580.4964,
-      "train_samples_per_second": 0.715,
       "train_steps_per_second": 0.181
     }
   ],

 {
+  "best_metric": 1.0051764249801636,
   "best_model_checkpoint": "/home/labuser/Documents/phi-3/phi-3.5-new/checkpoint-105",
   "epoch": 5.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.7281827330589294,
+      "learning_rate": 0.0001,
+      "loss": 1.2517,
       "step": 21
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.1211004257202148,
+      "eval_runtime": 6.7788,
+      "eval_samples_per_second": 2.508,
+      "eval_steps_per_second": 0.738,
       "step": 21
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.5565729737281799,
+      "learning_rate": 8.535533905932738e-05,
+      "loss": 0.9912,
       "step": 42
     },
     {
       "epoch": 2.0,
+      "eval_loss": 1.0125099420547485,
+      "eval_runtime": 6.8252,
+      "eval_samples_per_second": 2.491,
+      "eval_steps_per_second": 0.733,
       "step": 42
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.730018138885498,
+      "learning_rate": 5e-05,
+      "loss": 0.9198,
       "step": 63
     },
     {
       "epoch": 3.0,
+      "eval_loss": 1.0076608657836914,
+      "eval_runtime": 6.788,
+      "eval_samples_per_second": 2.504,
+      "eval_steps_per_second": 0.737,
       "step": 63
     },
     {
       "epoch": 4.0,
+      "grad_norm": 0.912876546382904,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 0.8883,
       "step": 84
     },
     {
       "epoch": 4.0,
+      "eval_loss": 1.0058414936065674,
+      "eval_runtime": 6.8991,
+      "eval_samples_per_second": 2.464,
+      "eval_steps_per_second": 0.725,
       "step": 84
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.5380117893218994,
       "learning_rate": 0.0,
+      "loss": 0.8727,
       "step": 105
     },
     {
       "epoch": 5.0,
+      "eval_loss": 1.0051764249801636,
+      "eval_runtime": 6.8394,
+      "eval_samples_per_second": 2.486,
+      "eval_steps_per_second": 0.731,
       "step": 105
     },
     {
       "epoch": 5.0,
       "step": 105,
       "total_flos": 8689108767160320.0,
+      "train_loss": 0.9847308204287575,
+      "train_runtime": 581.6572,
+      "train_samples_per_second": 0.713,
       "train_steps_per_second": 0.181
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddbf45ff3036803d9eefb17433db74ae9d1d762a4ec386a585d223f7ba8f5362
 size 5624

 version https://git-lfs.github.com/spec/v1
+oid sha256:f13e576b6949e0d2dec213e01d234ec58654620365de37ce95f267570e8fb4ee
 size 5624