End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +521 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: apache-2.0
 base_model: Qwen/Qwen2.5-7B
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: hp_ablations_qwen_bsz1024
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # hp_ablations_qwen_bsz1024
-This model is a fine-tuned version of [Qwen/Qwen2.5-7B](https://huggingface.co/Qwen/Qwen2.5-7B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6190

 base_model: Qwen/Qwen2.5-7B
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: hp_ablations_qwen_bsz1024
 # hp_ablations_qwen_bsz1024
+This model is a fine-tuned version of [Qwen/Qwen2.5-7B](https://huggingface.co/Qwen/Qwen2.5-7B) on the mlfoundations-dev/oh-dcft-v3.1-gpt-4o-mini dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6190

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 2.994871794871795,
+    "eval_loss": 0.6190248131752014,
+    "eval_runtime": 222.7123,
+    "eval_samples_per_second": 53.086,
+    "eval_steps_per_second": 0.418,
+    "total_flos": 2754957111459840.0,
+    "train_loss": 0.6167326612196739,
+    "train_runtime": 35776.9525,
+    "train_samples_per_second": 18.835,
+    "train_steps_per_second": 0.018
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.994871794871795,
+    "eval_loss": 0.6190248131752014,
+    "eval_runtime": 222.7123,
+    "eval_samples_per_second": 53.086,
+    "eval_steps_per_second": 0.418
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.994871794871795,
+    "total_flos": 2754957111459840.0,
+    "train_loss": 0.6167326612196739,
+    "train_runtime": 35776.9525,
+    "train_samples_per_second": 18.835,
+    "train_steps_per_second": 0.018
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,521 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.994871794871795,
+  "eval_steps": 500,
+  "global_step": 657,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.045584045584045586,
+      "grad_norm": 0.9747199141382675,
+      "learning_rate": 5e-06,
+      "loss": 0.7529,
+      "step": 10
+    },
+    {
+      "epoch": 0.09116809116809117,
+      "grad_norm": 0.8738603014316104,
+      "learning_rate": 5e-06,
+      "loss": 0.6963,
+      "step": 20
+    },
+    {
+      "epoch": 0.13675213675213677,
+      "grad_norm": 0.8150690175536751,
+      "learning_rate": 5e-06,
+      "loss": 0.6838,
+      "step": 30
+    },
+    {
+      "epoch": 0.18233618233618235,
+      "grad_norm": 0.8040590579100562,
+      "learning_rate": 5e-06,
+      "loss": 0.6731,
+      "step": 40
+    },
+    {
+      "epoch": 0.22792022792022792,
+      "grad_norm": 0.8097580687205038,
+      "learning_rate": 5e-06,
+      "loss": 0.6568,
+      "step": 50
+    },
+    {
+      "epoch": 0.27350427350427353,
+      "grad_norm": 0.7017512733530653,
+      "learning_rate": 5e-06,
+      "loss": 0.6482,
+      "step": 60
+    },
+    {
+      "epoch": 0.3190883190883191,
+      "grad_norm": 0.46658768732638123,
+      "learning_rate": 5e-06,
+      "loss": 0.6508,
+      "step": 70
+    },
+    {
+      "epoch": 0.3646723646723647,
+      "grad_norm": 0.27624642671580113,
+      "learning_rate": 5e-06,
+      "loss": 0.6449,
+      "step": 80
+    },
+    {
+      "epoch": 0.41025641025641024,
+      "grad_norm": 0.24917438010760184,
+      "learning_rate": 5e-06,
+      "loss": 0.6411,
+      "step": 90
+    },
+    {
+      "epoch": 0.45584045584045585,
+      "grad_norm": 0.2581331671168845,
+      "learning_rate": 5e-06,
+      "loss": 0.6402,
+      "step": 100
+    },
+    {
+      "epoch": 0.5014245014245015,
+      "grad_norm": 0.24037652957624636,
+      "learning_rate": 5e-06,
+      "loss": 0.6422,
+      "step": 110
+    },
+    {
+      "epoch": 0.5470085470085471,
+      "grad_norm": 0.23269369333404952,
+      "learning_rate": 5e-06,
+      "loss": 0.6374,
+      "step": 120
+    },
+    {
+      "epoch": 0.5925925925925926,
+      "grad_norm": 0.23915104514085617,
+      "learning_rate": 5e-06,
+      "loss": 0.6395,
+      "step": 130
+    },
+    {
+      "epoch": 0.6381766381766382,
+      "grad_norm": 0.2609780887042042,
+      "learning_rate": 5e-06,
+      "loss": 0.6412,
+      "step": 140
+    },
+    {
+      "epoch": 0.6837606837606838,
+      "grad_norm": 0.23404048980327943,
+      "learning_rate": 5e-06,
+      "loss": 0.6337,
+      "step": 150
+    },
+    {
+      "epoch": 0.7293447293447294,
+      "grad_norm": 0.21838704952274085,
+      "learning_rate": 5e-06,
+      "loss": 0.6333,
+      "step": 160
+    },
+    {
+      "epoch": 0.7749287749287749,
+      "grad_norm": 0.2382035774873146,
+      "learning_rate": 5e-06,
+      "loss": 0.633,
+      "step": 170
+    },
+    {
+      "epoch": 0.8205128205128205,
+      "grad_norm": 0.2438000385852018,
+      "learning_rate": 5e-06,
+      "loss": 0.6386,
+      "step": 180
+    },
+    {
+      "epoch": 0.8660968660968661,
+      "grad_norm": 0.22530554762484006,
+      "learning_rate": 5e-06,
+      "loss": 0.6345,
+      "step": 190
+    },
+    {
+      "epoch": 0.9116809116809117,
+      "grad_norm": 0.2349886748386411,
+      "learning_rate": 5e-06,
+      "loss": 0.6408,
+      "step": 200
+    },
+    {
+      "epoch": 0.9572649572649573,
+      "grad_norm": 0.25085516929265755,
+      "learning_rate": 5e-06,
+      "loss": 0.6322,
+      "step": 210
+    },
+    {
+      "epoch": 0.9982905982905983,
+      "eval_loss": 0.6290858387947083,
+      "eval_runtime": 223.0866,
+      "eval_samples_per_second": 52.997,
+      "eval_steps_per_second": 0.417,
+      "step": 219
+    },
+    {
+      "epoch": 1.002849002849003,
+      "grad_norm": 0.4128874703264031,
+      "learning_rate": 5e-06,
+      "loss": 0.6672,
+      "step": 220
+    },
+    {
+      "epoch": 1.0484330484330484,
+      "grad_norm": 0.2741974395463933,
+      "learning_rate": 5e-06,
+      "loss": 0.6126,
+      "step": 230
+    },
+    {
+      "epoch": 1.0940170940170941,
+      "grad_norm": 0.24996957336799014,
+      "learning_rate": 5e-06,
+      "loss": 0.6122,
+      "step": 240
+    },
+    {
+      "epoch": 1.1396011396011396,
+      "grad_norm": 0.2308654521968029,
+      "learning_rate": 5e-06,
+      "loss": 0.6147,
+      "step": 250
+    },
+    {
+      "epoch": 1.1851851851851851,
+      "grad_norm": 0.21800620424831227,
+      "learning_rate": 5e-06,
+      "loss": 0.6104,
+      "step": 260
+    },
+    {
+      "epoch": 1.2307692307692308,
+      "grad_norm": 0.22878445296983144,
+      "learning_rate": 5e-06,
+      "loss": 0.6109,
+      "step": 270
+    },
+    {
+      "epoch": 1.2763532763532763,
+      "grad_norm": 0.22048121695978434,
+      "learning_rate": 5e-06,
+      "loss": 0.6137,
+      "step": 280
+    },
+    {
+      "epoch": 1.3219373219373218,
+      "grad_norm": 0.22321985375553052,
+      "learning_rate": 5e-06,
+      "loss": 0.6102,
+      "step": 290
+    },
+    {
+      "epoch": 1.3675213675213675,
+      "grad_norm": 0.23340158642086364,
+      "learning_rate": 5e-06,
+      "loss": 0.609,
+      "step": 300
+    },
+    {
+      "epoch": 1.413105413105413,
+      "grad_norm": 0.2160885724116477,
+      "learning_rate": 5e-06,
+      "loss": 0.613,
+      "step": 310
+    },
+    {
+      "epoch": 1.4586894586894588,
+      "grad_norm": 0.21579764874251084,
+      "learning_rate": 5e-06,
+      "loss": 0.6105,
+      "step": 320
+    },
+    {
+      "epoch": 1.5042735042735043,
+      "grad_norm": 0.24191612198460108,
+      "learning_rate": 5e-06,
+      "loss": 0.6049,
+      "step": 330
+    },
+    {
+      "epoch": 1.54985754985755,
+      "grad_norm": 0.2218278655422596,
+      "learning_rate": 5e-06,
+      "loss": 0.6081,
+      "step": 340
+    },
+    {
+      "epoch": 1.5954415954415955,
+      "grad_norm": 0.2322145105092986,
+      "learning_rate": 5e-06,
+      "loss": 0.6129,
+      "step": 350
+    },
+    {
+      "epoch": 1.641025641025641,
+      "grad_norm": 0.21658541308539972,
+      "learning_rate": 5e-06,
+      "loss": 0.6092,
+      "step": 360
+    },
+    {
+      "epoch": 1.6866096866096867,
+      "grad_norm": 0.24054412349179422,
+      "learning_rate": 5e-06,
+      "loss": 0.6057,
+      "step": 370
+    },
+    {
+      "epoch": 1.7321937321937322,
+      "grad_norm": 0.2725818691336268,
+      "learning_rate": 5e-06,
+      "loss": 0.6065,
+      "step": 380
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 0.23261322507876125,
+      "learning_rate": 5e-06,
+      "loss": 0.6075,
+      "step": 390
+    },
+    {
+      "epoch": 1.8233618233618234,
+      "grad_norm": 0.21931910039916533,
+      "learning_rate": 5e-06,
+      "loss": 0.6028,
+      "step": 400
+    },
+    {
+      "epoch": 1.868945868945869,
+      "grad_norm": 0.2102187671028171,
+      "learning_rate": 5e-06,
+      "loss": 0.6003,
+      "step": 410
+    },
+    {
+      "epoch": 1.9145299145299144,
+      "grad_norm": 0.22631213435723302,
+      "learning_rate": 5e-06,
+      "loss": 0.6067,
+      "step": 420
+    },
+    {
+      "epoch": 1.96011396011396,
+      "grad_norm": 0.23696933054944608,
+      "learning_rate": 5e-06,
+      "loss": 0.6083,
+      "step": 430
+    },
+    {
+      "epoch": 1.9965811965811966,
+      "eval_loss": 0.6215006709098816,
+      "eval_runtime": 224.1659,
+      "eval_samples_per_second": 52.742,
+      "eval_steps_per_second": 0.415,
+      "step": 438
+    },
+    {
+      "epoch": 2.005698005698006,
+      "grad_norm": 0.2323893228533647,
+      "learning_rate": 5e-06,
+      "loss": 0.6421,
+      "step": 440
+    },
+    {
+      "epoch": 2.051282051282051,
+      "grad_norm": 0.2248336007687922,
+      "learning_rate": 5e-06,
+      "loss": 0.5803,
+      "step": 450
+    },
+    {
+      "epoch": 2.096866096866097,
+      "grad_norm": 0.225417442071853,
+      "learning_rate": 5e-06,
+      "loss": 0.5869,
+      "step": 460
+    },
+    {
+      "epoch": 2.1424501424501425,
+      "grad_norm": 0.2204104722476421,
+      "learning_rate": 5e-06,
+      "loss": 0.5845,
+      "step": 470
+    },
+    {
+      "epoch": 2.1880341880341883,
+      "grad_norm": 0.2565084390638512,
+      "learning_rate": 5e-06,
+      "loss": 0.5837,
+      "step": 480
+    },
+    {
+      "epoch": 2.2336182336182335,
+      "grad_norm": 0.2245257556826023,
+      "learning_rate": 5e-06,
+      "loss": 0.5828,
+      "step": 490
+    },
+    {
+      "epoch": 2.2792022792022792,
+      "grad_norm": 0.22001308034422606,
+      "learning_rate": 5e-06,
+      "loss": 0.5831,
+      "step": 500
+    },
+    {
+      "epoch": 2.324786324786325,
+      "grad_norm": 0.2270454664497775,
+      "learning_rate": 5e-06,
+      "loss": 0.5838,
+      "step": 510
+    },
+    {
+      "epoch": 2.3703703703703702,
+      "grad_norm": 0.22740470236209073,
+      "learning_rate": 5e-06,
+      "loss": 0.586,
+      "step": 520
+    },
+    {
+      "epoch": 2.415954415954416,
+      "grad_norm": 0.2302979493200276,
+      "learning_rate": 5e-06,
+      "loss": 0.5883,
+      "step": 530
+    },
+    {
+      "epoch": 2.4615384615384617,
+      "grad_norm": 0.25292997039450504,
+      "learning_rate": 5e-06,
+      "loss": 0.5927,
+      "step": 540
+    },
+    {
+      "epoch": 2.5071225071225074,
+      "grad_norm": 0.2223763921390108,
+      "learning_rate": 5e-06,
+      "loss": 0.5914,
+      "step": 550
+    },
+    {
+      "epoch": 2.5527065527065527,
+      "grad_norm": 0.23815767371523935,
+      "learning_rate": 5e-06,
+      "loss": 0.5859,
+      "step": 560
+    },
+    {
+      "epoch": 2.5982905982905984,
+      "grad_norm": 0.2593266359272012,
+      "learning_rate": 5e-06,
+      "loss": 0.5854,
+      "step": 570
+    },
+    {
+      "epoch": 2.6438746438746437,
+      "grad_norm": 0.23931559412564932,
+      "learning_rate": 5e-06,
+      "loss": 0.5854,
+      "step": 580
+    },
+    {
+      "epoch": 2.6894586894586894,
+      "grad_norm": 0.21456969497967046,
+      "learning_rate": 5e-06,
+      "loss": 0.5865,
+      "step": 590
+    },
+    {
+      "epoch": 2.735042735042735,
+      "grad_norm": 0.23061617250879088,
+      "learning_rate": 5e-06,
+      "loss": 0.5862,
+      "step": 600
+    },
+    {
+      "epoch": 2.780626780626781,
+      "grad_norm": 0.2088223573865155,
+      "learning_rate": 5e-06,
+      "loss": 0.5856,
+      "step": 610
+    },
+    {
+      "epoch": 2.826210826210826,
+      "grad_norm": 0.22810405657658617,
+      "learning_rate": 5e-06,
+      "loss": 0.5874,
+      "step": 620
+    },
+    {
+      "epoch": 2.871794871794872,
+      "grad_norm": 0.268468678439456,
+      "learning_rate": 5e-06,
+      "loss": 0.5889,
+      "step": 630
+    },
+    {
+      "epoch": 2.9173789173789175,
+      "grad_norm": 0.23190583340922707,
+      "learning_rate": 5e-06,
+      "loss": 0.585,
+      "step": 640
+    },
+    {
+      "epoch": 2.962962962962963,
+      "grad_norm": 0.2202766065355913,
+      "learning_rate": 5e-06,
+      "loss": 0.58,
+      "step": 650
+    },
+    {
+      "epoch": 2.994871794871795,
+      "eval_loss": 0.6190248131752014,
+      "eval_runtime": 222.4874,
+      "eval_samples_per_second": 53.14,
+      "eval_steps_per_second": 0.418,
+      "step": 657
+    },
+    {
+      "epoch": 2.994871794871795,
+      "step": 657,
+      "total_flos": 2754957111459840.0,
+      "train_loss": 0.6167326612196739,
+      "train_runtime": 35776.9525,
+      "train_samples_per_second": 18.835,
+      "train_steps_per_second": 0.018
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 657,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2754957111459840.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed