Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +345 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c53e59c2bd584a2174d8768ace772b5d5796aa08166aa25302904cb3a665ff7
 size 5323528

 version https://git-lfs.github.com/spec/v1
+oid sha256:a58fa9dcca1c27ffd494a46534c40e8cf04faf98e8b281458e05b5136ae9fdcb
 size 5323528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ed95370d354bc8f635abaa3992f7d5d462b1bcb514428235550ba0f48b08b85
 size 10707706

 version https://git-lfs.github.com/spec/v1
+oid sha256:c03e500ed8e4953132e62be3704d6bfdca68f7a406db1b6ee83e2921feef9003
 size 10707706

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa5f9b3cb2653c573d5d70e945ac9e78ff4b3999c649bc26690d113787889e70
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f82adac821233515f57963faf84277e6be21f1e14004a972d38969d3b12b54c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74be72e979aeba041a40f5740c89e95223a2d1671e242dd571b2005ebd09a8c1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf79ba88210639e0b725ee3ca8af70f266780a8aabbf9d25faf56fd6dd10d11b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.48665139079093933,
-  "best_model_checkpoint": "bart_lora_outputs\\checkpoint-1000",
-  "epoch": 1.631321370309951,
   "eval_steps": 100,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -687,13 +687,353 @@
       "eval_samples_per_second": 197.803,
       "eval_steps_per_second": 24.831,
       "step": 1000
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 1883435087757312.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.45563551783561707,
+  "best_model_checkpoint": "bart_lora_outputs\\checkpoint-1500",
+  "epoch": 2.4469820554649266,
   "eval_steps": 100,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 197.803,
       "eval_steps_per_second": 24.831,
       "step": 1000
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0009094138543516875,
+      "loss": 0.5042,
+      "step": 1010
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0009076376554174067,
+      "loss": 0.5495,
+      "step": 1020
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0009058614564831261,
+      "loss": 0.5309,
+      "step": 1030
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0009040852575488455,
+      "loss": 0.5207,
+      "step": 1040
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.0009023090586145648,
+      "loss": 0.5209,
+      "step": 1050
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.0009005328596802842,
+      "loss": 0.5172,
+      "step": 1060
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0008987566607460036,
+      "loss": 0.5284,
+      "step": 1070
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0008969804618117229,
+      "loss": 0.532,
+      "step": 1080
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.0008952042628774423,
+      "loss": 0.534,
+      "step": 1090
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0008934280639431617,
+      "loss": 0.5299,
+      "step": 1100
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 0.47891008853912354,
+      "eval_runtime": 5.951,
+      "eval_samples_per_second": 196.772,
+      "eval_steps_per_second": 24.702,
+      "step": 1100
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.000891651865008881,
+      "loss": 0.5213,
+      "step": 1110
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.0008898756660746004,
+      "loss": 0.5443,
+      "step": 1120
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.0008880994671403197,
+      "loss": 0.5367,
+      "step": 1130
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.0008863232682060391,
+      "loss": 0.5393,
+      "step": 1140
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0008845470692717584,
+      "loss": 0.5286,
+      "step": 1150
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.0008827708703374778,
+      "loss": 0.5363,
+      "step": 1160
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.0008809946714031972,
+      "loss": 0.4707,
+      "step": 1170
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.0008792184724689165,
+      "loss": 0.5414,
+      "step": 1180
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0008774422735346359,
+      "loss": 0.508,
+      "step": 1190
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.0008756660746003553,
+      "loss": 0.5238,
+      "step": 1200
+    },
+    {
+      "epoch": 1.96,
+      "eval_loss": 0.47723039984703064,
+      "eval_runtime": 11.5341,
+      "eval_samples_per_second": 101.525,
+      "eval_steps_per_second": 12.745,
+      "step": 1200
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0008738898756660746,
+      "loss": 0.527,
+      "step": 1210
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.000872113676731794,
+      "loss": 0.537,
+      "step": 1220
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.0008703374777975134,
+      "loss": 0.5252,
+      "step": 1230
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0008685612788632326,
+      "loss": 0.5252,
+      "step": 1240
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.000866785079928952,
+      "loss": 0.501,
+      "step": 1250
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.0008650088809946714,
+      "loss": 0.4979,
+      "step": 1260
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.0008632326820603907,
+      "loss": 0.5041,
+      "step": 1270
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0008614564831261101,
+      "loss": 0.4837,
+      "step": 1280
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.0008596802841918295,
+      "loss": 0.5124,
+      "step": 1290
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.0008579040852575488,
+      "loss": 0.4876,
+      "step": 1300
+    },
+    {
+      "epoch": 2.12,
+      "eval_loss": 0.4801134765148163,
+      "eval_runtime": 5.9243,
+      "eval_samples_per_second": 197.662,
+      "eval_steps_per_second": 24.813,
+      "step": 1300
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.0008561278863232682,
+      "loss": 0.4937,
+      "step": 1310
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.0008543516873889876,
+      "loss": 0.4969,
+      "step": 1320
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.0008525754884547069,
+      "loss": 0.4921,
+      "step": 1330
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.0008507992895204263,
+      "loss": 0.5073,
+      "step": 1340
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.0008490230905861456,
+      "loss": 0.4758,
+      "step": 1350
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.000847246891651865,
+      "loss": 0.5329,
+      "step": 1360
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.0008454706927175843,
+      "loss": 0.4786,
+      "step": 1370
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.0008436944937833037,
+      "loss": 0.4819,
+      "step": 1380
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0008419182948490231,
+      "loss": 0.5125,
+      "step": 1390
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 0.0008401420959147424,
+      "loss": 0.5048,
+      "step": 1400
+    },
+    {
+      "epoch": 2.28,
+      "eval_loss": 0.46734750270843506,
+      "eval_runtime": 13.0931,
+      "eval_samples_per_second": 89.436,
+      "eval_steps_per_second": 11.227,
+      "step": 1400
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0008383658969804618,
+      "loss": 0.5128,
+      "step": 1410
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.0008365896980461812,
+      "loss": 0.5022,
+      "step": 1420
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0008348134991119005,
+      "loss": 0.4767,
+      "step": 1430
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.00083303730017762,
+      "loss": 0.4959,
+      "step": 1440
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.0008312611012433394,
+      "loss": 0.5147,
+      "step": 1450
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.0008294849023090586,
+      "loss": 0.4922,
+      "step": 1460
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.000827708703374778,
+      "loss": 0.4936,
+      "step": 1470
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.0008259325044404974,
+      "loss": 0.5041,
+      "step": 1480
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.0008241563055062167,
+      "loss": 0.491,
+      "step": 1490
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.0008223801065719361,
+      "loss": 0.5096,
+      "step": 1500
+    },
+    {
+      "epoch": 2.45,
+      "eval_loss": 0.45563551783561707,
+      "eval_runtime": 13.1221,
+      "eval_samples_per_second": 89.239,
+      "eval_steps_per_second": 11.202,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 2833006835073024.0,
   "trial_name": null,
   "trial_params": null
 }