phi-3.5-new

Browse files

Files changed (9) hide show

adapter_config.json +3 -3
adapter_model.safetensors +1 -1
all_results.json +8 -8
eval_results.json +4 -4
runs/Jan13_05-53-27_dmlab/events.out.tfevents.1736740407.dmlab.71228.0 +3 -0
runs/Jan13_05-53-27_dmlab/events.out.tfevents.1736740995.dmlab.71228.1 +3 -0
train_results.json +4 -4
trainer_state.json +41 -41
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -23,10 +23,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
-    "qkv_proj",
     "gate_up_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "gate_up_proj",
+    "o_proj",
+    "down_proj",
+    "qkv_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:272a00f063966eb6a188503f16dfaafeeb0b3938fb064be3e153d64dfa16cb4b
 size 100697728

 version https://git-lfs.github.com/spec/v1
+oid sha256:1de015679f6b9c3f3cebe7a92f3fb63d181165fcdf04bf929c38c658d15a6185
 size 100697728

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 5.0,
-    "eval_loss": 1.006455421447754,
-    "eval_runtime": 6.8379,
-    "eval_samples_per_second": 2.486,
-    "eval_steps_per_second": 0.731,
     "total_flos": 8689108767160320.0,
-    "train_loss": 0.9555120922270275,
-    "train_runtime": 582.4007,
-    "train_samples_per_second": 0.713,
-    "train_steps_per_second": 0.18
 }

 {
     "epoch": 5.0,
+    "eval_loss": 1.0679360628128052,
+    "eval_runtime": 6.7666,
+    "eval_samples_per_second": 2.512,
+    "eval_steps_per_second": 0.739,
     "total_flos": 8689108767160320.0,
+    "train_loss": 1.114040283929734,
+    "train_runtime": 580.4964,
+    "train_samples_per_second": 0.715,
+    "train_steps_per_second": 0.181
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 5.0,
-    "eval_loss": 1.006455421447754,
-    "eval_runtime": 6.8379,
-    "eval_samples_per_second": 2.486,
-    "eval_steps_per_second": 0.731
 }

 {
     "epoch": 5.0,
+    "eval_loss": 1.0679360628128052,
+    "eval_runtime": 6.7666,
+    "eval_samples_per_second": 2.512,
+    "eval_steps_per_second": 0.739
 }

runs/Jan13_05-53-27_dmlab/events.out.tfevents.1736740407.dmlab.71228.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7da475c892856f07b3fe86892f9b3b6f0123c137bf03e8167b5e9f7feb202f94
+size 11029

runs/Jan13_05-53-27_dmlab/events.out.tfevents.1736740995.dmlab.71228.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:05da92b40cc13cec68ab3a14131fcd62d62b8d42f8b354900515bf8cea28cadf
+size 354

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 5.0,
     "total_flos": 8689108767160320.0,
-    "train_loss": 0.9555120922270275,
-    "train_runtime": 582.4007,
-    "train_samples_per_second": 0.713,
-    "train_steps_per_second": 0.18
 }

 {
     "epoch": 5.0,
     "total_flos": 8689108767160320.0,
+    "train_loss": 1.114040283929734,
+    "train_runtime": 580.4964,
+    "train_samples_per_second": 0.715,
+    "train_steps_per_second": 0.181
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.9966219663619995,
-  "best_model_checkpoint": "/home/labuser/Documents/phi-3/phi-3.5-new/checkpoint-63",
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 105,
@@ -10,87 +10,87 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.5774533748626709,
-      "learning_rate": 0.0002,
-      "loss": 1.2076,
       "step": 21
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.060381531715393,
-      "eval_runtime": 6.8834,
-      "eval_samples_per_second": 2.47,
-      "eval_steps_per_second": 0.726,
       "step": 21
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.4814026951789856,
-      "learning_rate": 0.00017071067811865476,
-      "loss": 0.9571,
       "step": 42
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.998464047908783,
-      "eval_runtime": 6.8587,
-      "eval_samples_per_second": 2.479,
-      "eval_steps_per_second": 0.729,
       "step": 42
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.5674614906311035,
-      "learning_rate": 0.0001,
-      "loss": 0.901,
       "step": 63
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.9966219663619995,
-      "eval_runtime": 6.8664,
-      "eval_samples_per_second": 2.476,
-      "eval_steps_per_second": 0.728,
       "step": 63
     },
     {
       "epoch": 4.0,
-      "grad_norm": 0.5171260833740234,
-      "learning_rate": 2.9289321881345254e-05,
-      "loss": 0.8659,
       "step": 84
     },
     {
       "epoch": 4.0,
-      "eval_loss": 1.001924753189087,
-      "eval_runtime": 6.8571,
-      "eval_samples_per_second": 2.479,
-      "eval_steps_per_second": 0.729,
       "step": 84
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.4767768681049347,
       "learning_rate": 0.0,
-      "loss": 0.846,
       "step": 105
     },
     {
       "epoch": 5.0,
-      "eval_loss": 1.0021475553512573,
-      "eval_runtime": 6.8536,
-      "eval_samples_per_second": 2.48,
-      "eval_steps_per_second": 0.73,
       "step": 105
     },
     {
       "epoch": 5.0,
       "step": 105,
       "total_flos": 8689108767160320.0,
-      "train_loss": 0.9555120922270275,
-      "train_runtime": 582.4007,
-      "train_samples_per_second": 0.713,
-      "train_steps_per_second": 0.18
     }
   ],
   "logging_steps": 500,
@@ -105,7 +105,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {

 {
+  "best_metric": 1.0568883419036865,
+  "best_model_checkpoint": "/home/labuser/Documents/phi-3/phi-3.5-new/checkpoint-105",
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 105,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.9515901803970337,
+      "learning_rate": 2e-05,
+      "loss": 1.3492,
       "step": 21
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.2440305948257446,
+      "eval_runtime": 6.9085,
+      "eval_samples_per_second": 2.461,
+      "eval_steps_per_second": 0.724,
       "step": 21
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.7905489802360535,
+      "learning_rate": 1.7071067811865477e-05,
+      "loss": 1.1695,
       "step": 42
     },
     {
       "epoch": 2.0,
+      "eval_loss": 1.1394829750061035,
+      "eval_runtime": 6.8809,
+      "eval_samples_per_second": 2.471,
+      "eval_steps_per_second": 0.727,
       "step": 42
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.7479790449142456,
+      "learning_rate": 1e-05,
+      "loss": 1.0622,
       "step": 63
     },
     {
       "epoch": 3.0,
+      "eval_loss": 1.081365942955017,
+      "eval_runtime": 6.9014,
+      "eval_samples_per_second": 2.463,
+      "eval_steps_per_second": 0.724,
       "step": 63
     },
     {
       "epoch": 4.0,
+      "grad_norm": 0.8422548174858093,
+      "learning_rate": 2.9289321881345257e-06,
+      "loss": 1.0051,
       "step": 84
     },
     {
       "epoch": 4.0,
+      "eval_loss": 1.0581644773483276,
+      "eval_runtime": 6.7884,
+      "eval_samples_per_second": 2.504,
+      "eval_steps_per_second": 0.737,
       "step": 84
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.6641820073127747,
       "learning_rate": 0.0,
+      "loss": 0.9842,
       "step": 105
     },
     {
       "epoch": 5.0,
+      "eval_loss": 1.0568883419036865,
+      "eval_runtime": 6.7736,
+      "eval_samples_per_second": 2.51,
+      "eval_steps_per_second": 0.738,
       "step": 105
     },
     {
       "epoch": 5.0,
       "step": 105,
       "total_flos": 8689108767160320.0,
+      "train_loss": 1.114040283929734,
+      "train_runtime": 580.4964,
+      "train_samples_per_second": 0.715,
+      "train_steps_per_second": 0.181
     }
   ],
   "logging_steps": 500,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b13726b299e8575d2863caea80e5c8126effe8fd59991a7918fa2d8a2e87a4b9
 size 5624

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddbf45ff3036803d9eefb17433db74ae9d1d762a4ec386a585d223f7ba8f5362
 size 5624