Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +343 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a58fa9dcca1c27ffd494a46534c40e8cf04faf98e8b281458e05b5136ae9fdcb
 size 5323528

 version https://git-lfs.github.com/spec/v1
+oid sha256:264ecec36fa0a7877a74e5bc90de5cfe426844837e851cd04e19bd3e592e07d9
 size 5323528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c03e500ed8e4953132e62be3704d6bfdca68f7a406db1b6ee83e2921feef9003
 size 10707706

 version https://git-lfs.github.com/spec/v1
+oid sha256:9825a8978c13d22cdcc9972f981eca76a202db226c336284f26d0d6ae781e227
 size 10707706

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f82adac821233515f57963faf84277e6be21f1e14004a972d38969d3b12b54c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d122c28c5fc3f53d9d112345e4abc97c9cbf42b6d6c3da282213a9e89d67c386
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf79ba88210639e0b725ee3ca8af70f266780a8aabbf9d25faf56fd6dd10d11b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c35dfe7906d79114431a0065ffa36a90ef274205cc0fefa7802dd197d609956
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.45563551783561707,
   "best_model_checkpoint": "bart_lora_outputs\\checkpoint-1500",
-  "epoch": 2.4469820554649266,
   "eval_steps": 100,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1027,13 +1027,353 @@
       "eval_samples_per_second": 89.239,
       "eval_steps_per_second": 11.202,
       "step": 1500
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 2833006835073024.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": 0.45563551783561707,
   "best_model_checkpoint": "bart_lora_outputs\\checkpoint-1500",
+  "epoch": 3.262642740619902,
   "eval_steps": 100,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 89.239,
       "eval_steps_per_second": 11.202,
       "step": 1500
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.0008206039076376555,
+      "loss": 0.4859,
+      "step": 1510
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.0008188277087033748,
+      "loss": 0.5359,
+      "step": 1520
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.0008170515097690942,
+      "loss": 0.4693,
+      "step": 1530
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.0008152753108348136,
+      "loss": 0.4506,
+      "step": 1540
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.0008134991119005329,
+      "loss": 0.4449,
+      "step": 1550
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 0.0008117229129662523,
+      "loss": 0.4976,
+      "step": 1560
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 0.0008099467140319717,
+      "loss": 0.4781,
+      "step": 1570
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 0.0008081705150976909,
+      "loss": 0.4755,
+      "step": 1580
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.0008063943161634103,
+      "loss": 0.5088,
+      "step": 1590
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.0008046181172291297,
+      "loss": 0.4777,
+      "step": 1600
+    },
+    {
+      "epoch": 2.61,
+      "eval_loss": 0.46053746342658997,
+      "eval_runtime": 13.1201,
+      "eval_samples_per_second": 89.252,
+      "eval_steps_per_second": 11.204,
+      "step": 1600
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.0008028419182948491,
+      "loss": 0.4648,
+      "step": 1610
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.0008010657193605684,
+      "loss": 0.5066,
+      "step": 1620
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 0.0007992895204262878,
+      "loss": 0.5127,
+      "step": 1630
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 0.0007975133214920072,
+      "loss": 0.5136,
+      "step": 1640
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.0007957371225577265,
+      "loss": 0.4911,
+      "step": 1650
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.0007939609236234459,
+      "loss": 0.4537,
+      "step": 1660
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.0007921847246891653,
+      "loss": 0.4958,
+      "step": 1670
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.0007904085257548845,
+      "loss": 0.4997,
+      "step": 1680
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 0.0007886323268206039,
+      "loss": 0.5192,
+      "step": 1690
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.0007868561278863233,
+      "loss": 0.4977,
+      "step": 1700
+    },
+    {
+      "epoch": 2.77,
+      "eval_loss": 0.4585750102996826,
+      "eval_runtime": 13.1101,
+      "eval_samples_per_second": 89.32,
+      "eval_steps_per_second": 11.213,
+      "step": 1700
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.0007850799289520426,
+      "loss": 0.5044,
+      "step": 1710
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 0.000783303730017762,
+      "loss": 0.4839,
+      "step": 1720
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.0007815275310834814,
+      "loss": 0.5234,
+      "step": 1730
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.0007797513321492007,
+      "loss": 0.4835,
+      "step": 1740
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.0007779751332149201,
+      "loss": 0.4939,
+      "step": 1750
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 0.0007761989342806395,
+      "loss": 0.554,
+      "step": 1760
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 0.0007744227353463588,
+      "loss": 0.4643,
+      "step": 1770
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 0.0007726465364120782,
+      "loss": 0.4909,
+      "step": 1780
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.0007708703374777975,
+      "loss": 0.5042,
+      "step": 1790
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 0.0007690941385435168,
+      "loss": 0.4772,
+      "step": 1800
+    },
+    {
+      "epoch": 2.94,
+      "eval_loss": 0.44169098138809204,
+      "eval_runtime": 13.0107,
+      "eval_samples_per_second": 90.003,
+      "eval_steps_per_second": 11.298,
+      "step": 1800
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 0.0007673179396092362,
+      "loss": 0.4529,
+      "step": 1810
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 0.0007655417406749556,
+      "loss": 0.5058,
+      "step": 1820
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 0.0007637655417406749,
+      "loss": 0.4794,
+      "step": 1830
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.0007619893428063943,
+      "loss": 0.477,
+      "step": 1840
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 0.0007602131438721137,
+      "loss": 0.4663,
+      "step": 1850
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 0.0007584369449378331,
+      "loss": 0.4634,
+      "step": 1860
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 0.0007566607460035524,
+      "loss": 0.5159,
+      "step": 1870
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 0.0007548845470692718,
+      "loss": 0.4818,
+      "step": 1880
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 0.0007531083481349912,
+      "loss": 0.4747,
+      "step": 1890
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 0.0007513321492007104,
+      "loss": 0.4605,
+      "step": 1900
+    },
+    {
+      "epoch": 3.1,
+      "eval_loss": 0.4483106732368469,
+      "eval_runtime": 13.1231,
+      "eval_samples_per_second": 89.232,
+      "eval_steps_per_second": 11.202,
+      "step": 1900
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 0.0007495559502664298,
+      "loss": 0.474,
+      "step": 1910
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 0.0007477797513321492,
+      "loss": 0.4639,
+      "step": 1920
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 0.0007460035523978685,
+      "loss": 0.4485,
+      "step": 1930
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 0.0007442273534635879,
+      "loss": 0.4835,
+      "step": 1940
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 0.0007424511545293073,
+      "loss": 0.4805,
+      "step": 1950
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 0.0007406749555950266,
+      "loss": 0.4818,
+      "step": 1960
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 0.000738898756660746,
+      "loss": 0.4921,
+      "step": 1970
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 0.0007371225577264654,
+      "loss": 0.4601,
+      "step": 1980
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 0.0007353463587921847,
+      "loss": 0.4771,
+      "step": 1990
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 0.000733570159857904,
+      "loss": 0.4487,
+      "step": 2000
+    },
+    {
+      "epoch": 3.26,
+      "eval_loss": 0.46053341031074524,
+      "eval_runtime": 12.936,
+      "eval_samples_per_second": 90.523,
+      "eval_steps_per_second": 11.364,
+      "step": 2000
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 3778253218971648.0,
   "trial_name": null,
   "trial_params": null
 }