Lansechen
/

Qwen2.5-3B-Instruct-Distill-bs17k-fhm600-batch32-epoch3-8192

@@ -27,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/chenran1995-the-chinese-university-of-hong-kong/huggingface/runs/x17gr4yx)
 This model was trained with SFT.

 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/chenran1995-the-chinese-university-of-hong-kong/huggingface/runs/hhvcopv9)
 This model was trained with SFT.

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "total_flos": 179979530797056.0,
-    "train_loss": 0.0,
-    "train_runtime": 1.8275,
     "train_samples": 6554,
-    "train_samples_per_second": 4051.49,
-    "train_steps_per_second": 31.191
 }

 {
+    "total_flos": 84573274767360.0,
+    "train_loss": 0.7089759466940897,
+    "train_runtime": 1518.5199,
     "train_samples": 6554,
+    "train_samples_per_second": 4.876,
+    "train_steps_per_second": 0.038
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "total_flos": 179979530797056.0,
-    "train_loss": 0.0,
-    "train_runtime": 1.8275,
     "train_samples": 6554,
-    "train_samples_per_second": 4051.49,
-    "train_steps_per_second": 31.191
 }

 {
+    "total_flos": 84573274767360.0,
+    "train_loss": 0.7089759466940897,
+    "train_runtime": 1518.5199,
     "train_samples": 6554,
+    "train_samples_per_second": 4.876,
+    "train_steps_per_second": 0.038
 }

trainer_state.json CHANGED Viewed

@@ -1,213 +1,110 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.9440993788819876,
   "eval_steps": 500,
-  "global_step": 120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.12422360248447205,
-      "grad_norm": 2.720003128051758,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 1.0081,
-      "mean_token_accuracy": 0.7258908212184906,
       "step": 5
     },
     {
-      "epoch": 0.2484472049689441,
-      "grad_norm": 1.022207260131836,
-      "learning_rate": 4.986344023965386e-05,
-      "loss": 0.861,
-      "mean_token_accuracy": 0.7483338862657547,
       "step": 10
     },
     {
-      "epoch": 0.37267080745341613,
-      "grad_norm": 0.5985455513000488,
-      "learning_rate": 4.931150598363494e-05,
-      "loss": 0.7839,
-      "mean_token_accuracy": 0.7629545524716377,
       "step": 15
     },
     {
-      "epoch": 0.4968944099378882,
-      "grad_norm": 0.4236472249031067,
-      "learning_rate": 4.834611651233304e-05,
-      "loss": 0.7354,
-      "mean_token_accuracy": 0.7745954841375351,
       "step": 20
     },
     {
-      "epoch": 0.6211180124223602,
-      "grad_norm": 0.35875728726387024,
-      "learning_rate": 4.6985571585149876e-05,
-      "loss": 0.7146,
-      "mean_token_accuracy": 0.77941093146801,
       "step": 25
     },
     {
-      "epoch": 0.7453416149068323,
-      "grad_norm": 0.349810928106308,
-      "learning_rate": 4.5255661461418854e-05,
-      "loss": 0.6951,
-      "mean_token_accuracy": 0.7839933410286903,
       "step": 30
     },
     {
-      "epoch": 0.8695652173913043,
-      "grad_norm": 0.2977786362171173,
-      "learning_rate": 4.3189178024614896e-05,
-      "loss": 0.6871,
-      "mean_token_accuracy": 0.7858522430062294,
       "step": 35
     },
     {
-      "epoch": 0.9937888198757764,
-      "grad_norm": 0.33435600996017456,
-      "learning_rate": 4.0825293184962056e-05,
-      "loss": 0.6795,
-      "mean_token_accuracy": 0.7874569892883301,
       "step": 40
     },
     {
-      "epoch": 1.0993788819875776,
-      "grad_norm": 0.5033183097839355,
-      "learning_rate": 3.8208816343334156e-05,
-      "loss": 0.6564,
-      "mean_token_accuracy": 0.7936392934883342,
       "step": 45
     },
     {
-      "epoch": 1.2236024844720497,
-      "grad_norm": 0.35527950525283813,
-      "learning_rate": 3.5389344991836974e-05,
-      "loss": 0.6223,
-      "mean_token_accuracy": 0.801690150797367,
       "step": 50
     },
     {
-      "epoch": 1.3478260869565217,
-      "grad_norm": 0.3436889946460724,
-      "learning_rate": 3.242032455214346e-05,
-      "loss": 0.6219,
-      "mean_token_accuracy": 0.8015273302793503,
       "step": 55
     },
     {
-      "epoch": 1.4720496894409938,
-      "grad_norm": 0.31214451789855957,
-      "learning_rate": 2.9358035273127483e-05,
-      "loss": 0.6241,
-      "mean_token_accuracy": 0.8007384449243545,
-      "step": 60
-    },
-    {
-      "epoch": 1.5962732919254659,
-      "grad_norm": 0.2834468185901642,
-      "learning_rate": 2.6260525391993023e-05,
-      "loss": 0.6212,
-      "mean_token_accuracy": 0.8008193418383598,
-      "step": 65
-    },
-    {
-      "epoch": 1.720496894409938,
-      "grad_norm": 0.2718545198440552,
-      "learning_rate": 2.3186510781715892e-05,
-      "loss": 0.6224,
-      "mean_token_accuracy": 0.8004700869321824,
-      "step": 70
-    },
-    {
-      "epoch": 1.84472049689441,
-      "grad_norm": 0.2998403012752533,
-      "learning_rate": 2.0194261942894628e-05,
-      "loss": 0.6077,
-      "mean_token_accuracy": 0.8049791321158409,
-      "step": 75
-    },
-    {
-      "epoch": 1.968944099378882,
-      "grad_norm": 0.26175156235694885,
-      "learning_rate": 1.7340499438004994e-05,
-      "loss": 0.6065,
-      "mean_token_accuracy": 0.8056960567831993,
-      "step": 80
-    },
-    {
-      "epoch": 2.0745341614906834,
-      "grad_norm": 0.30868765711784363,
-      "learning_rate": 1.4679318706019013e-05,
-      "loss": 0.5928,
-      "mean_token_accuracy": 0.8117802195689258,
-      "step": 85
-    },
-    {
-      "epoch": 2.198757763975155,
-      "grad_norm": 0.33503425121307373,
-      "learning_rate": 1.2261164638420832e-05,
-      "loss": 0.5657,
-      "mean_token_accuracy": 0.816280497610569,
-      "step": 90
-    },
-    {
-      "epoch": 2.3229813664596275,
-      "grad_norm": 0.27925997972488403,
-      "learning_rate": 1.013187535438278e-05,
-      "loss": 0.5749,
-      "mean_token_accuracy": 0.813144038617611,
-      "step": 95
-    },
-    {
-      "epoch": 2.4472049689440993,
-      "grad_norm": 0.24198994040489197,
-      "learning_rate": 8.331813301137644e-06,
-      "loss": 0.5744,
-      "mean_token_accuracy": 0.8130593597888947,
-      "step": 100
-    },
-    {
-      "epoch": 2.571428571428571,
-      "grad_norm": 0.23274952173233032,
-      "learning_rate": 6.8951001502612065e-06,
-      "loss": 0.5723,
-      "mean_token_accuracy": 0.8137446627020836,
-      "step": 105
-    },
-    {
-      "epoch": 2.6956521739130435,
-      "grad_norm": 0.2240184247493744,
-      "learning_rate": 5.8489699930418664e-06,
-      "loss": 0.5645,
-      "mean_token_accuracy": 0.8161669239401818,
-      "step": 110
-    },
-    {
-      "epoch": 2.8198757763975157,
-      "grad_norm": 0.22074371576309204,
-      "learning_rate": 5.213253095656177e-06,
-      "loss": 0.5812,
-      "mean_token_accuracy": 0.8107848510146141,
-      "step": 115
-    },
-    {
-      "epoch": 2.9440993788819876,
-      "grad_norm": 0.22450964152812958,
-      "learning_rate": 5e-06,
-      "loss": 0.5667,
-      "mean_token_accuracy": 0.8154601871967315,
-      "step": 120
-    },
-    {
-      "epoch": 2.9440993788819876,
-      "step": 120,
-      "total_flos": 179979530797056.0,
-      "train_loss": 0.0,
-      "train_runtime": 1.8275,
-      "train_samples_per_second": 4051.49,
-      "train_steps_per_second": 31.191
     }
   ],
   "logging_steps": 5,
@@ -227,7 +124,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 179979530797056.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.8774193548387097,
   "eval_steps": 500,
+  "global_step": 57,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.25806451612903225,
+      "grad_norm": 1.7787522077560425,
+      "learning_rate": 4.984786304919372e-05,
+      "loss": 0.9092,
+      "mean_token_accuracy": 0.7503577440977096,
       "step": 5
     },
     {
+      "epoch": 0.5161290322580645,
+      "grad_norm": 0.9605578184127808,
+      "learning_rate": 4.815986240480617e-05,
+      "loss": 0.7348,
+      "mean_token_accuracy": 0.7808357656002045,
       "step": 10
     },
     {
+      "epoch": 0.7741935483870968,
+      "grad_norm": 0.601085364818573,
+      "learning_rate": 4.473599997017701e-05,
+      "loss": 0.6564,
+      "mean_token_accuracy": 0.7980892196297645,
       "step": 15
     },
     {
+      "epoch": 1.0,
+      "grad_norm": 512.1144409179688,
+      "learning_rate": 3.9863952006593134e-05,
+      "loss": 1.6224,
+      "mean_token_accuracy": 0.6946261065346854,
       "step": 20
     },
     {
+      "epoch": 1.2580645161290323,
+      "grad_norm": 0.6288492679595947,
+      "learning_rate": 3.3953072735999534e-05,
+      "loss": 0.6195,
+      "mean_token_accuracy": 0.8052686437964439,
       "step": 25
     },
     {
+      "epoch": 1.5161290322580645,
+      "grad_norm": 0.4004594385623932,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.5815,
+      "mean_token_accuracy": 0.8156079143285752,
       "step": 30
     },
     {
+      "epoch": 1.7741935483870968,
+      "grad_norm": 0.3189852833747864,
+      "learning_rate": 2.1046927264000475e-05,
+      "loss": 0.5735,
+      "mean_token_accuracy": 0.8173265308141708,
       "step": 35
     },
     {
+      "epoch": 2.0,
+      "grad_norm": 0.3097386360168457,
+      "learning_rate": 1.5136047993406865e-05,
+      "loss": 0.5678,
+      "mean_token_accuracy": 0.819041873727526,
       "step": 40
     },
     {
+      "epoch": 2.258064516129032,
+      "grad_norm": 0.26866406202316284,
+      "learning_rate": 1.0264000029822999e-05,
+      "loss": 0.5328,
+      "mean_token_accuracy": 0.8284321025013923,
       "step": 45
     },
     {
+      "epoch": 2.5161290322580645,
+      "grad_norm": 0.24466799199581146,
+      "learning_rate": 6.840137595193838e-06,
+      "loss": 0.5318,
+      "mean_token_accuracy": 0.8282432556152344,
       "step": 50
     },
     {
+      "epoch": 2.774193548387097,
+      "grad_norm": 0.22442595660686493,
+      "learning_rate": 5.152136950806283e-06,
+      "loss": 0.5416,
+      "mean_token_accuracy": 0.8250808849930763,
       "step": 55
     },
     {
+      "epoch": 2.8774193548387097,
+      "mean_token_accuracy": 0.8287803158164024,
+      "step": 57,
+      "total_flos": 84573274767360.0,
+      "train_loss": 0.7089759466940897,
+      "train_runtime": 1518.5199,
+      "train_samples_per_second": 4.876,
+      "train_steps_per_second": 0.038
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 84573274767360.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null