Training in progress, step 10

Browse files

Files changed (6) hide show

adapter_model.safetensors +1 -1
all_results.json +12 -4
eval_results.json +5 -5
test_results.json +8 -0
train_results.json +9 -0
trainer_state.json +27 -18

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:273d7c37129876c98f71bd168ef60b1efe986b88b1c9a670861b78c19e5e57e0
 size 4372840

 version https://git-lfs.github.com/spec/v1
+oid sha256:11b2235d91cfd06eee468eb8d63dfafcd75cbb75852a42bd2e08b81809d1adaa
 size 4372840

all_results.json CHANGED Viewed

@@ -1,8 +1,16 @@
 {
-    "eval_loss": 0.08018716424703598,
     "eval_model_preparation_time": 0.0126,
-    "eval_runtime": 21.8993,
     "eval_samples": 7,
-    "eval_samples_per_second": 0.32,
-    "eval_steps_per_second": 0.32
 }

 {
+    "epoch": 2.8363636363636364,
+    "eval_loss": 0.02887091226875782,
     "eval_model_preparation_time": 0.0126,
+    "eval_runtime": 67.8206,
     "eval_samples": 7,
+    "eval_samples_per_second": 0.324,
+    "eval_steps_per_second": 0.324,
+    "test_samples": 22,
+    "total_flos": 3.417506073386496e+16,
+    "train_loss": 0.05125234333368448,
+    "train_runtime": 1358.5629,
+    "train_samples": 110,
+    "train_samples_per_second": 0.243,
+    "train_steps_per_second": 0.029
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "eval_loss": 0.08018716424703598,
-    "eval_model_preparation_time": 0.0126,
-    "eval_runtime": 21.8993,
     "eval_samples": 7,
-    "eval_samples_per_second": 0.32,
-    "eval_steps_per_second": 0.32
 }

 {
+    "epoch": 2.8363636363636364,
+    "eval_loss": 0.03865480050444603,
+    "eval_runtime": 21.1079,
     "eval_samples": 7,
+    "eval_samples_per_second": 0.332,
+    "eval_steps_per_second": 0.332
 }

test_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.8363636363636364,
+    "eval_loss": 0.02887091226875782,
+    "eval_runtime": 67.8206,
+    "eval_samples_per_second": 0.324,
+    "eval_steps_per_second": 0.324,
+    "test_samples": 22
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 2.8363636363636364,
+    "total_flos": 3.417506073386496e+16,
+    "train_loss": 0.05125234333368448,
+    "train_runtime": 1358.5629,
+    "train_samples": 110,
+    "train_samples_per_second": 0.243,
+    "train_steps_per_second": 0.029
+}

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.12545762956142426,
-  "best_model_checkpoint": "/home/paperspace/mmdoc/outputs/Damarcode_AB_v1_20241129_qwen_v2/checkpoint-30",
   "epoch": 2.8363636363636364,
   "eval_steps": 10,
   "global_step": 39,
@@ -10,48 +10,57 @@
   "log_history": [
     {
       "epoch": 0.7272727272727273,
-      "grad_norm": 1.2174557447433472,
       "learning_rate": 0.0002,
-      "loss": 0.4848,
       "step": 10
     },
     {
       "epoch": 0.7272727272727273,
-      "eval_loss": 0.377216100692749,
-      "eval_runtime": 21.2505,
-      "eval_samples_per_second": 0.329,
-      "eval_steps_per_second": 0.329,
       "step": 10
     },
     {
       "epoch": 1.4545454545454546,
-      "grad_norm": 0.7148427963256836,
       "learning_rate": 0.0002,
-      "loss": 0.2937,
       "step": 20
     },
     {
       "epoch": 1.4545454545454546,
-      "eval_loss": 0.22557333111763,
-      "eval_runtime": 21.2706,
-      "eval_samples_per_second": 0.329,
-      "eval_steps_per_second": 0.329,
       "step": 20
     },
     {
       "epoch": 2.1818181818181817,
-      "grad_norm": 3.1815290451049805,
       "learning_rate": 0.0002,
-      "loss": 0.1886,
       "step": 30
     },
     {
       "epoch": 2.1818181818181817,
-      "eval_loss": 0.12545762956142426,
-      "eval_runtime": 21.2759,
       "eval_samples_per_second": 0.329,
       "eval_steps_per_second": 0.329,
       "step": 30
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.03865480050444603,
+  "best_model_checkpoint": "/home/paperspace/mmdoc/outputs/Damarcode_AB_v1_20241129_qwen_v2/checkpoint-39/checkpoint-30",
   "epoch": 2.8363636363636364,
   "eval_steps": 10,
   "global_step": 39,
   "log_history": [
     {
       "epoch": 0.7272727272727273,
+      "grad_norm": 0.19426245987415314,
       "learning_rate": 0.0002,
+      "loss": 0.0774,
       "step": 10
     },
     {
       "epoch": 0.7272727272727273,
+      "eval_loss": 0.060963425785303116,
+      "eval_runtime": 21.0525,
+      "eval_samples_per_second": 0.333,
+      "eval_steps_per_second": 0.333,
       "step": 10
     },
     {
       "epoch": 1.4545454545454546,
+      "grad_norm": 0.21388182044029236,
       "learning_rate": 0.0002,
+      "loss": 0.04,
       "step": 20
     },
     {
       "epoch": 1.4545454545454546,
+      "eval_loss": 0.0446288101375103,
+      "eval_runtime": 21.2102,
+      "eval_samples_per_second": 0.33,
+      "eval_steps_per_second": 0.33,
       "step": 20
     },
     {
       "epoch": 2.1818181818181817,
+      "grad_norm": 2.1915783882141113,
       "learning_rate": 0.0002,
+      "loss": 0.0591,
       "step": 30
     },
     {
       "epoch": 2.1818181818181817,
+      "eval_loss": 0.03865480050444603,
+      "eval_runtime": 21.2826,
       "eval_samples_per_second": 0.329,
       "eval_steps_per_second": 0.329,
       "step": 30
+    },
+    {
+      "epoch": 2.8363636363636364,
+      "step": 39,
+      "total_flos": 3.417506073386496e+16,
+      "train_loss": 0.05125234333368448,
+      "train_runtime": 1358.5629,
+      "train_samples_per_second": 0.243,
+      "train_steps_per_second": 0.029
     }
   ],
   "logging_steps": 10,