Training in progress, step 6000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +345 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:179d085ca837c247e51e495c481698bce1fe87106ba872d158b33f05ebd68c28
 size 2669168

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd42a6a3b012049dbfcf0d4ad62b630ef8dca1676e140ca7ca180a24e13c910d
 size 2669168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5865282ec31b70188127e177049048a4608470067efdf2c6677aee5dd113a3d
 size 5399290

 version https://git-lfs.github.com/spec/v1
+oid sha256:628d3ad5e22c61b9e139f66dac9c70cf34279bc9e3690968e4e15d122f68c3fb
 size 5399290

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a35ab43707c6a593050fe6f3d1b69b4d0787f56cec6787477847ec0479597cc
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:acaefe44adfe5a8938c73ae689d02d9d4a52614411ab8ab1eb80188c16c1a919
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30332e8503dd44f865572ef943e9da8b0c9c1c0a4084d30212d8b7e0b9a4d2d8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a4dd1d74816502c8ecbc715add6bae4e99a2b4e50b653b0b20cfecda567b3eb
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.4268430769443512,
-  "best_model_checkpoint": "bart_lora_outputs\\checkpoint-5500",
-  "epoch": 8.97226753670473,
   "eval_steps": 100,
-  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3747,13 +3747,353 @@
       "eval_samples_per_second": 205.042,
       "eval_steps_per_second": 12.957,
       "step": 5500
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1.1987241223716864e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.4207456707954407,
+  "best_model_checkpoint": "bart_lora_outputs\\checkpoint-6000",
+  "epoch": 9.787928221859707,
   "eval_steps": 100,
+  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 205.042,
       "eval_steps_per_second": 12.957,
       "step": 5500
+    },
+    {
+      "epoch": 8.99,
+      "learning_rate": 0.00011012433392539965,
+      "loss": 0.4506,
+      "step": 5510
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 0.000108348134991119,
+      "loss": 0.3832,
+      "step": 5520
+    },
+    {
+      "epoch": 9.02,
+      "learning_rate": 0.00010657193605683836,
+      "loss": 0.4018,
+      "step": 5530
+    },
+    {
+      "epoch": 9.04,
+      "learning_rate": 0.00010479573712255772,
+      "loss": 0.413,
+      "step": 5540
+    },
+    {
+      "epoch": 9.05,
+      "learning_rate": 0.00010301953818827709,
+      "loss": 0.4317,
+      "step": 5550
+    },
+    {
+      "epoch": 9.07,
+      "learning_rate": 0.00010124333925399646,
+      "loss": 0.4117,
+      "step": 5560
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 9.946714031971581e-05,
+      "loss": 0.4068,
+      "step": 5570
+    },
+    {
+      "epoch": 9.1,
+      "learning_rate": 9.769094138543518e-05,
+      "loss": 0.3956,
+      "step": 5580
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 9.591474245115453e-05,
+      "loss": 0.3948,
+      "step": 5590
+    },
+    {
+      "epoch": 9.14,
+      "learning_rate": 9.41385435168739e-05,
+      "loss": 0.3842,
+      "step": 5600
+    },
+    {
+      "epoch": 9.14,
+      "eval_loss": 0.42232006788253784,
+      "eval_runtime": 5.687,
+      "eval_samples_per_second": 205.907,
+      "eval_steps_per_second": 13.012,
+      "step": 5600
+    },
+    {
+      "epoch": 9.15,
+      "learning_rate": 9.236234458259325e-05,
+      "loss": 0.4099,
+      "step": 5610
+    },
+    {
+      "epoch": 9.17,
+      "learning_rate": 9.05861456483126e-05,
+      "loss": 0.413,
+      "step": 5620
+    },
+    {
+      "epoch": 9.18,
+      "learning_rate": 8.880994671403198e-05,
+      "loss": 0.4015,
+      "step": 5630
+    },
+    {
+      "epoch": 9.2,
+      "learning_rate": 8.703374777975133e-05,
+      "loss": 0.4304,
+      "step": 5640
+    },
+    {
+      "epoch": 9.22,
+      "learning_rate": 8.52575488454707e-05,
+      "loss": 0.4239,
+      "step": 5650
+    },
+    {
+      "epoch": 9.23,
+      "learning_rate": 8.348134991119005e-05,
+      "loss": 0.3997,
+      "step": 5660
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 8.170515097690942e-05,
+      "loss": 0.4935,
+      "step": 5670
+    },
+    {
+      "epoch": 9.27,
+      "learning_rate": 7.992895204262877e-05,
+      "loss": 0.4035,
+      "step": 5680
+    },
+    {
+      "epoch": 9.28,
+      "learning_rate": 7.815275310834814e-05,
+      "loss": 0.435,
+      "step": 5690
+    },
+    {
+      "epoch": 9.3,
+      "learning_rate": 7.63765541740675e-05,
+      "loss": 0.4267,
+      "step": 5700
+    },
+    {
+      "epoch": 9.3,
+      "eval_loss": 0.4202769696712494,
+      "eval_runtime": 5.77,
+      "eval_samples_per_second": 202.946,
+      "eval_steps_per_second": 12.825,
+      "step": 5700
+    },
+    {
+      "epoch": 9.31,
+      "learning_rate": 7.460035523978686e-05,
+      "loss": 0.4154,
+      "step": 5710
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 7.282415630550622e-05,
+      "loss": 0.4107,
+      "step": 5720
+    },
+    {
+      "epoch": 9.35,
+      "learning_rate": 7.104795737122558e-05,
+      "loss": 0.424,
+      "step": 5730
+    },
+    {
+      "epoch": 9.36,
+      "learning_rate": 6.927175843694494e-05,
+      "loss": 0.3896,
+      "step": 5740
+    },
+    {
+      "epoch": 9.38,
+      "learning_rate": 6.74955595026643e-05,
+      "loss": 0.4094,
+      "step": 5750
+    },
+    {
+      "epoch": 9.4,
+      "learning_rate": 6.571936056838366e-05,
+      "loss": 0.4134,
+      "step": 5760
+    },
+    {
+      "epoch": 9.41,
+      "learning_rate": 6.394316163410301e-05,
+      "loss": 0.4232,
+      "step": 5770
+    },
+    {
+      "epoch": 9.43,
+      "learning_rate": 6.216696269982238e-05,
+      "loss": 0.4005,
+      "step": 5780
+    },
+    {
+      "epoch": 9.45,
+      "learning_rate": 6.039076376554174e-05,
+      "loss": 0.4138,
+      "step": 5790
+    },
+    {
+      "epoch": 9.46,
+      "learning_rate": 5.861456483126111e-05,
+      "loss": 0.423,
+      "step": 5800
+    },
+    {
+      "epoch": 9.46,
+      "eval_loss": 0.4260061979293823,
+      "eval_runtime": 6.015,
+      "eval_samples_per_second": 194.679,
+      "eval_steps_per_second": 12.303,
+      "step": 5800
+    },
+    {
+      "epoch": 9.48,
+      "learning_rate": 5.6838365896980466e-05,
+      "loss": 0.3959,
+      "step": 5810
+    },
+    {
+      "epoch": 9.49,
+      "learning_rate": 5.5062166962699826e-05,
+      "loss": 0.4072,
+      "step": 5820
+    },
+    {
+      "epoch": 9.51,
+      "learning_rate": 5.328596802841918e-05,
+      "loss": 0.429,
+      "step": 5830
+    },
+    {
+      "epoch": 9.53,
+      "learning_rate": 5.1509769094138545e-05,
+      "loss": 0.4161,
+      "step": 5840
+    },
+    {
+      "epoch": 9.54,
+      "learning_rate": 4.9733570159857905e-05,
+      "loss": 0.4319,
+      "step": 5850
+    },
+    {
+      "epoch": 9.56,
+      "learning_rate": 4.7957371225577264e-05,
+      "loss": 0.4195,
+      "step": 5860
+    },
+    {
+      "epoch": 9.58,
+      "learning_rate": 4.6181172291296624e-05,
+      "loss": 0.409,
+      "step": 5870
+    },
+    {
+      "epoch": 9.59,
+      "learning_rate": 4.440497335701599e-05,
+      "loss": 0.4327,
+      "step": 5880
+    },
+    {
+      "epoch": 9.61,
+      "learning_rate": 4.262877442273535e-05,
+      "loss": 0.4337,
+      "step": 5890
+    },
+    {
+      "epoch": 9.62,
+      "learning_rate": 4.085257548845471e-05,
+      "loss": 0.4506,
+      "step": 5900
+    },
+    {
+      "epoch": 9.62,
+      "eval_loss": 0.4249822795391083,
+      "eval_runtime": 5.633,
+      "eval_samples_per_second": 207.881,
+      "eval_steps_per_second": 13.137,
+      "step": 5900
+    },
+    {
+      "epoch": 9.64,
+      "learning_rate": 3.907637655417407e-05,
+      "loss": 0.4067,
+      "step": 5910
+    },
+    {
+      "epoch": 9.66,
+      "learning_rate": 3.730017761989343e-05,
+      "loss": 0.3946,
+      "step": 5920
+    },
+    {
+      "epoch": 9.67,
+      "learning_rate": 3.552397868561279e-05,
+      "loss": 0.4301,
+      "step": 5930
+    },
+    {
+      "epoch": 9.69,
+      "learning_rate": 3.374777975133215e-05,
+      "loss": 0.4204,
+      "step": 5940
+    },
+    {
+      "epoch": 9.71,
+      "learning_rate": 3.197158081705151e-05,
+      "loss": 0.4298,
+      "step": 5950
+    },
+    {
+      "epoch": 9.72,
+      "learning_rate": 3.019538188277087e-05,
+      "loss": 0.4056,
+      "step": 5960
+    },
+    {
+      "epoch": 9.74,
+      "learning_rate": 2.8419182948490233e-05,
+      "loss": 0.4377,
+      "step": 5970
+    },
+    {
+      "epoch": 9.76,
+      "learning_rate": 2.664298401420959e-05,
+      "loss": 0.417,
+      "step": 5980
+    },
+    {
+      "epoch": 9.77,
+      "learning_rate": 2.4866785079928952e-05,
+      "loss": 0.4153,
+      "step": 5990
+    },
+    {
+      "epoch": 9.79,
+      "learning_rate": 2.3090586145648312e-05,
+      "loss": 0.4087,
+      "step": 6000
+    },
+    {
+      "epoch": 9.79,
+      "eval_loss": 0.4207456707954407,
+      "eval_runtime": 5.625,
+      "eval_samples_per_second": 208.177,
+      "eval_steps_per_second": 13.156,
+      "step": 6000
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1.3060363769413632e+16,
   "trial_name": null,
   "trial_params": null
 }