Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +403 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50ca524f54edaad2efaf52b5094690e6a44a5385b9e7f53ef2c19f513752a265
 size 1304192904

 version https://git-lfs.github.com/spec/v1
+oid sha256:95ceecdd0b1aa2dbf1ec2f23a4ddd928595c382511d085f0d1663c9722b61ee1
 size 1304192904

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eec4148b0f8e105171cc96f1d25b9ea52f1a3ccfeb7c98ad54edc804e3b3c50c
 size 2608620781

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6a4cdb23fbf57119940af942e16735f7e6ed513337f644de9af3a2da6bc01e6
 size 2608620781

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6410f39a0e7c645ed67ec28686db1c7ce44af3a9fe7fbe74340514fa7e64b446
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0dde6cfb71c791201a1b9da1c3a5b4ebadc80456fb340adc64cdc8144e3ec77
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a73fd5a100d4ccdd00ffce46e090807f48fb5f542090f5c0a86653f3b6372be2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:94619124ebef073ef434567921b91695bdc23ddab6d107310abf209634914efe
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.2986587882041931,
   "best_model_checkpoint": "./results/checkpoint-180",
-  "epoch": 3.0211480362537766,
   "eval_steps": 20,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -807,6 +807,406 @@
       "eval_samples_per_second": 9.897,
       "eval_steps_per_second": 2.523,
       "step": 1000
     }
   ],
   "logging_steps": 20,
@@ -826,7 +1226,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3235818588464112.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.2986587882041931,
   "best_model_checkpoint": "./results/checkpoint-180",
+  "epoch": 4.531722054380665,
   "eval_steps": 20,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.897,
       "eval_steps_per_second": 2.523,
       "step": 1000
+    },
+    {
+      "epoch": 3.081570996978852,
+      "grad_norm": 0.047077979892492294,
+      "learning_rate": 7.673716012084593e-06,
+      "loss": 0.2093,
+      "step": 1020
+    },
+    {
+      "epoch": 3.081570996978852,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_loss": 0.4630826711654663,
+      "eval_runtime": 16.4745,
+      "eval_samples_per_second": 9.287,
+      "eval_steps_per_second": 2.367,
+      "step": 1020
+    },
+    {
+      "epoch": 3.1419939577039275,
+      "grad_norm": 0.07947070896625519,
+      "learning_rate": 7.432024169184291e-06,
+      "loss": 0.2436,
+      "step": 1040
+    },
+    {
+      "epoch": 3.1419939577039275,
+      "eval_accuracy": 0.869281045751634,
+      "eval_loss": 0.5888116359710693,
+      "eval_runtime": 15.2662,
+      "eval_samples_per_second": 10.022,
+      "eval_steps_per_second": 2.555,
+      "step": 1040
+    },
+    {
+      "epoch": 3.202416918429003,
+      "grad_norm": 1.2857632637023926,
+      "learning_rate": 7.190332326283988e-06,
+      "loss": 0.1375,
+      "step": 1060
+    },
+    {
+      "epoch": 3.202416918429003,
+      "eval_accuracy": 0.8888888888888888,
+      "eval_loss": 0.6457459926605225,
+      "eval_runtime": 15.6557,
+      "eval_samples_per_second": 9.773,
+      "eval_steps_per_second": 2.491,
+      "step": 1060
+    },
+    {
+      "epoch": 3.2628398791540785,
+      "grad_norm": 0.029293788596987724,
+      "learning_rate": 6.948640483383686e-06,
+      "loss": 0.0049,
+      "step": 1080
+    },
+    {
+      "epoch": 3.2628398791540785,
+      "eval_accuracy": 0.8888888888888888,
+      "eval_loss": 0.6600757837295532,
+      "eval_runtime": 15.5566,
+      "eval_samples_per_second": 9.835,
+      "eval_steps_per_second": 2.507,
+      "step": 1080
+    },
+    {
+      "epoch": 3.323262839879154,
+      "grad_norm": 0.01973886974155903,
+      "learning_rate": 6.706948640483384e-06,
+      "loss": 0.0089,
+      "step": 1100
+    },
+    {
+      "epoch": 3.323262839879154,
+      "eval_accuracy": 0.8823529411764706,
+      "eval_loss": 0.6461706161499023,
+      "eval_runtime": 15.4515,
+      "eval_samples_per_second": 9.902,
+      "eval_steps_per_second": 2.524,
+      "step": 1100
+    },
+    {
+      "epoch": 3.38368580060423,
+      "grad_norm": 0.0038618145044893026,
+      "learning_rate": 6.465256797583082e-06,
+      "loss": 0.0616,
+      "step": 1120
+    },
+    {
+      "epoch": 3.38368580060423,
+      "eval_accuracy": 0.8888888888888888,
+      "eval_loss": 0.6607339978218079,
+      "eval_runtime": 15.5198,
+      "eval_samples_per_second": 9.858,
+      "eval_steps_per_second": 2.513,
+      "step": 1120
+    },
+    {
+      "epoch": 3.4441087613293053,
+      "grad_norm": 0.009797470644116402,
+      "learning_rate": 6.22356495468278e-06,
+      "loss": 0.006,
+      "step": 1140
+    },
+    {
+      "epoch": 3.4441087613293053,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_loss": 0.6243405938148499,
+      "eval_runtime": 15.5129,
+      "eval_samples_per_second": 9.863,
+      "eval_steps_per_second": 2.514,
+      "step": 1140
+    },
+    {
+      "epoch": 3.504531722054381,
+      "grad_norm": 0.01924210786819458,
+      "learning_rate": 5.981873111782478e-06,
+      "loss": 0.1769,
+      "step": 1160
+    },
+    {
+      "epoch": 3.504531722054381,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_loss": 0.5256864428520203,
+      "eval_runtime": 15.4982,
+      "eval_samples_per_second": 9.872,
+      "eval_steps_per_second": 2.516,
+      "step": 1160
+    },
+    {
+      "epoch": 3.5649546827794563,
+      "grad_norm": 0.06478149443864822,
+      "learning_rate": 5.7401812688821754e-06,
+      "loss": 0.0044,
+      "step": 1180
+    },
+    {
+      "epoch": 3.5649546827794563,
+      "eval_accuracy": 0.9084967320261438,
+      "eval_loss": 0.5507912039756775,
+      "eval_runtime": 15.4829,
+      "eval_samples_per_second": 9.882,
+      "eval_steps_per_second": 2.519,
+      "step": 1180
+    },
+    {
+      "epoch": 3.6253776435045317,
+      "grad_norm": 0.14462168514728546,
+      "learning_rate": 5.498489425981873e-06,
+      "loss": 0.2295,
+      "step": 1200
+    },
+    {
+      "epoch": 3.6253776435045317,
+      "eval_accuracy": 0.9150326797385621,
+      "eval_loss": 0.48460787534713745,
+      "eval_runtime": 15.4689,
+      "eval_samples_per_second": 9.891,
+      "eval_steps_per_second": 2.521,
+      "step": 1200
+    },
+    {
+      "epoch": 3.685800604229607,
+      "grad_norm": 0.004326341208070517,
+      "learning_rate": 5.2567975830815706e-06,
+      "loss": 0.1175,
+      "step": 1220
+    },
+    {
+      "epoch": 3.685800604229607,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_loss": 0.4763535261154175,
+      "eval_runtime": 15.4639,
+      "eval_samples_per_second": 9.894,
+      "eval_steps_per_second": 2.522,
+      "step": 1220
+    },
+    {
+      "epoch": 3.7462235649546827,
+      "grad_norm": 0.016803044825792313,
+      "learning_rate": 5.01510574018127e-06,
+      "loss": 0.0746,
+      "step": 1240
+    },
+    {
+      "epoch": 3.7462235649546827,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_loss": 0.4760640561580658,
+      "eval_runtime": 15.4735,
+      "eval_samples_per_second": 9.888,
+      "eval_steps_per_second": 2.52,
+      "step": 1240
+    },
+    {
+      "epoch": 3.806646525679758,
+      "grad_norm": 0.024552155286073685,
+      "learning_rate": 4.773413897280967e-06,
+      "loss": 0.0222,
+      "step": 1260
+    },
+    {
+      "epoch": 3.806646525679758,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_loss": 0.48361214995384216,
+      "eval_runtime": 15.4614,
+      "eval_samples_per_second": 9.896,
+      "eval_steps_per_second": 2.522,
+      "step": 1260
+    },
+    {
+      "epoch": 3.8670694864048336,
+      "grad_norm": 0.04030178114771843,
+      "learning_rate": 4.531722054380665e-06,
+      "loss": 0.0012,
+      "step": 1280
+    },
+    {
+      "epoch": 3.8670694864048336,
+      "eval_accuracy": 0.9215686274509803,
+      "eval_loss": 0.4774629771709442,
+      "eval_runtime": 15.4388,
+      "eval_samples_per_second": 9.91,
+      "eval_steps_per_second": 2.526,
+      "step": 1280
+    },
+    {
+      "epoch": 3.9274924471299095,
+      "grad_norm": 0.030293526127934456,
+      "learning_rate": 4.2900302114803626e-06,
+      "loss": 0.2131,
+      "step": 1300
+    },
+    {
+      "epoch": 3.9274924471299095,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_loss": 0.46071678400039673,
+      "eval_runtime": 15.4357,
+      "eval_samples_per_second": 9.912,
+      "eval_steps_per_second": 2.527,
+      "step": 1300
+    },
+    {
+      "epoch": 3.987915407854985,
+      "grad_norm": 0.04355171322822571,
+      "learning_rate": 4.048338368580061e-06,
+      "loss": 0.0006,
+      "step": 1320
+    },
+    {
+      "epoch": 3.987915407854985,
+      "eval_accuracy": 0.9084967320261438,
+      "eval_loss": 0.4934905767440796,
+      "eval_runtime": 15.4993,
+      "eval_samples_per_second": 9.871,
+      "eval_steps_per_second": 2.516,
+      "step": 1320
+    },
+    {
+      "epoch": 4.04833836858006,
+      "grad_norm": 0.023308318108320236,
+      "learning_rate": 3.8066465256797586e-06,
+      "loss": 0.0758,
+      "step": 1340
+    },
+    {
+      "epoch": 4.04833836858006,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_loss": 0.4591919183731079,
+      "eval_runtime": 15.4907,
+      "eval_samples_per_second": 9.877,
+      "eval_steps_per_second": 2.518,
+      "step": 1340
+    },
+    {
+      "epoch": 4.108761329305136,
+      "grad_norm": 0.007429028861224651,
+      "learning_rate": 3.564954682779456e-06,
+      "loss": 0.1466,
+      "step": 1360
+    },
+    {
+      "epoch": 4.108761329305136,
+      "eval_accuracy": 0.9084967320261438,
+      "eval_loss": 0.4464338719844818,
+      "eval_runtime": 15.4771,
+      "eval_samples_per_second": 9.886,
+      "eval_steps_per_second": 2.52,
+      "step": 1360
+    },
+    {
+      "epoch": 4.169184290030212,
+      "grad_norm": 0.019125748425722122,
+      "learning_rate": 3.3232628398791546e-06,
+      "loss": 0.0488,
+      "step": 1380
+    },
+    {
+      "epoch": 4.169184290030212,
+      "eval_accuracy": 0.9084967320261438,
+      "eval_loss": 0.4816044867038727,
+      "eval_runtime": 15.4856,
+      "eval_samples_per_second": 9.88,
+      "eval_steps_per_second": 2.518,
+      "step": 1380
+    },
+    {
+      "epoch": 4.229607250755287,
+      "grad_norm": 0.02935463935136795,
+      "learning_rate": 3.081570996978852e-06,
+      "loss": 0.0014,
+      "step": 1400
+    },
+    {
+      "epoch": 4.229607250755287,
+      "eval_accuracy": 0.9150326797385621,
+      "eval_loss": 0.4570343494415283,
+      "eval_runtime": 15.452,
+      "eval_samples_per_second": 9.902,
+      "eval_steps_per_second": 2.524,
+      "step": 1400
+    },
+    {
+      "epoch": 4.290030211480363,
+      "grad_norm": 0.05864783003926277,
+      "learning_rate": 2.83987915407855e-06,
+      "loss": 0.082,
+      "step": 1420
+    },
+    {
+      "epoch": 4.290030211480363,
+      "eval_accuracy": 0.9215686274509803,
+      "eval_loss": 0.45447495579719543,
+      "eval_runtime": 15.4821,
+      "eval_samples_per_second": 9.882,
+      "eval_steps_per_second": 2.519,
+      "step": 1420
+    },
+    {
+      "epoch": 4.350453172205438,
+      "grad_norm": 1.1889474391937256,
+      "learning_rate": 2.598187311178248e-06,
+      "loss": 0.0009,
+      "step": 1440
+    },
+    {
+      "epoch": 4.350453172205438,
+      "eval_accuracy": 0.9150326797385621,
+      "eval_loss": 0.4721324145793915,
+      "eval_runtime": 15.4932,
+      "eval_samples_per_second": 9.875,
+      "eval_steps_per_second": 2.517,
+      "step": 1440
+    },
+    {
+      "epoch": 4.410876132930514,
+      "grad_norm": 0.017764601856470108,
+      "learning_rate": 2.3564954682779457e-06,
+      "loss": 0.0008,
+      "step": 1460
+    },
+    {
+      "epoch": 4.410876132930514,
+      "eval_accuracy": 0.9215686274509803,
+      "eval_loss": 0.4873809814453125,
+      "eval_runtime": 15.477,
+      "eval_samples_per_second": 9.886,
+      "eval_steps_per_second": 2.52,
+      "step": 1460
+    },
+    {
+      "epoch": 4.471299093655589,
+      "grad_norm": 0.016238484531641006,
+      "learning_rate": 2.1148036253776437e-06,
+      "loss": 0.0014,
+      "step": 1480
+    },
+    {
+      "epoch": 4.471299093655589,
+      "eval_accuracy": 0.9150326797385621,
+      "eval_loss": 0.5002758502960205,
+      "eval_runtime": 15.4881,
+      "eval_samples_per_second": 9.879,
+      "eval_steps_per_second": 2.518,
+      "step": 1480
+    },
+    {
+      "epoch": 4.531722054380665,
+      "grad_norm": 0.037868522107601166,
+      "learning_rate": 1.8731117824773415e-06,
+      "loss": 0.1612,
+      "step": 1500
+    },
+    {
+      "epoch": 4.531722054380665,
+      "eval_accuracy": 0.9150326797385621,
+      "eval_loss": 0.5064195394515991,
+      "eval_runtime": 15.5013,
+      "eval_samples_per_second": 9.87,
+      "eval_steps_per_second": 2.516,
+      "step": 1500
     }
   ],
   "logging_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 4844949162060756.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null