Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +405 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12c3f1920c22b8c03f0e5e79cd16be00f955c741f065320582722df80a77c84d
 size 1304192904

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8531674f361d182c891832698f501d99806f4a54ed644f913a7d6cceb4fcd09
 size 1304192904

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92a580347f950bf1fbeed881ed69b88a5d8b74d5edfd33e30fdda4e84706a337
 size 2608620781

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd3900014829cff936e288455c77cc8b24c817e5bdea4b3c8b0a9a2a3b7ae871
 size 2608620781

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07cd9b3292d4b8757e6a0b4dda333538b576e8e0c44ce0aa1c5d00941891c85e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:57ce7f83dafbabb337ab4f899de43a8d1e2ad1723ca17b896a002cebd19940f6
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b1833c721be8b262ff9a67cb491cdc5d937a286f1d484ecf25e40cca4aa7adf
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:303407244c6d788bc550e7a7560bf135b9af5a2f148beb7dd1c9b2a263c088ce
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.3018172085285187,
-  "best_model_checkpoint": "./results/checkpoint-860",
-  "epoch": 3.067484662576687,
   "eval_steps": 20,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -807,6 +807,406 @@
       "eval_samples_per_second": 10.737,
       "eval_steps_per_second": 2.72,
       "step": 1000
     }
   ],
   "logging_steps": 20,
@@ -826,7 +1226,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3245188867093824.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.2884907126426697,
+  "best_model_checkpoint": "./results/checkpoint-1440",
+  "epoch": 4.601226993865031,
   "eval_steps": 20,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.737,
       "eval_steps_per_second": 2.72,
       "step": 1000
+    },
+    {
+      "epoch": 3.128834355828221,
+      "grad_norm": 0.021293368190526962,
+      "learning_rate": 7.484662576687118e-06,
+      "loss": 0.1619,
+      "step": 1020
+    },
+    {
+      "epoch": 3.128834355828221,
+      "eval_accuracy": 0.9133333333333333,
+      "eval_loss": 0.4180934429168701,
+      "eval_runtime": 14.3308,
+      "eval_samples_per_second": 10.467,
+      "eval_steps_per_second": 2.652,
+      "step": 1020
+    },
+    {
+      "epoch": 3.190184049079755,
+      "grad_norm": 14.229204177856445,
+      "learning_rate": 7.239263803680983e-06,
+      "loss": 0.1849,
+      "step": 1040
+    },
+    {
+      "epoch": 3.190184049079755,
+      "eval_accuracy": 0.92,
+      "eval_loss": 0.47268736362457275,
+      "eval_runtime": 13.9315,
+      "eval_samples_per_second": 10.767,
+      "eval_steps_per_second": 2.728,
+      "step": 1040
+    },
+    {
+      "epoch": 3.2515337423312882,
+      "grad_norm": 0.017998775467276573,
+      "learning_rate": 6.993865030674847e-06,
+      "loss": 0.1949,
+      "step": 1060
+    },
+    {
+      "epoch": 3.2515337423312882,
+      "eval_accuracy": 0.8933333333333333,
+      "eval_loss": 0.3345566689968109,
+      "eval_runtime": 14.0413,
+      "eval_samples_per_second": 10.683,
+      "eval_steps_per_second": 2.706,
+      "step": 1060
+    },
+    {
+      "epoch": 3.312883435582822,
+      "grad_norm": 0.020114585757255554,
+      "learning_rate": 6.748466257668712e-06,
+      "loss": 0.1796,
+      "step": 1080
+    },
+    {
+      "epoch": 3.312883435582822,
+      "eval_accuracy": 0.9266666666666666,
+      "eval_loss": 0.3471291661262512,
+      "eval_runtime": 13.9741,
+      "eval_samples_per_second": 10.734,
+      "eval_steps_per_second": 2.719,
+      "step": 1080
+    },
+    {
+      "epoch": 3.374233128834356,
+      "grad_norm": 0.013905039988458157,
+      "learning_rate": 6.503067484662578e-06,
+      "loss": 0.086,
+      "step": 1100
+    },
+    {
+      "epoch": 3.374233128834356,
+      "eval_accuracy": 0.8866666666666667,
+      "eval_loss": 0.4089130759239197,
+      "eval_runtime": 13.9473,
+      "eval_samples_per_second": 10.755,
+      "eval_steps_per_second": 2.725,
+      "step": 1100
+    },
+    {
+      "epoch": 3.4355828220858897,
+      "grad_norm": 0.009700474329292774,
+      "learning_rate": 6.257668711656443e-06,
+      "loss": 0.0187,
+      "step": 1120
+    },
+    {
+      "epoch": 3.4355828220858897,
+      "eval_accuracy": 0.92,
+      "eval_loss": 0.3867844045162201,
+      "eval_runtime": 14.013,
+      "eval_samples_per_second": 10.704,
+      "eval_steps_per_second": 2.712,
+      "step": 1120
+    },
+    {
+      "epoch": 3.4969325153374236,
+      "grad_norm": 0.003781616687774658,
+      "learning_rate": 6.012269938650307e-06,
+      "loss": 0.0768,
+      "step": 1140
+    },
+    {
+      "epoch": 3.4969325153374236,
+      "eval_accuracy": 0.9266666666666666,
+      "eval_loss": 0.4095223546028137,
+      "eval_runtime": 13.9902,
+      "eval_samples_per_second": 10.722,
+      "eval_steps_per_second": 2.716,
+      "step": 1140
+    },
+    {
+      "epoch": 3.558282208588957,
+      "grad_norm": 0.21029236912727356,
+      "learning_rate": 5.766871165644172e-06,
+      "loss": 0.0008,
+      "step": 1160
+    },
+    {
+      "epoch": 3.558282208588957,
+      "eval_accuracy": 0.9066666666666666,
+      "eval_loss": 0.3779890835285187,
+      "eval_runtime": 13.9578,
+      "eval_samples_per_second": 10.747,
+      "eval_steps_per_second": 2.722,
+      "step": 1160
+    },
+    {
+      "epoch": 3.6196319018404908,
+      "grad_norm": 0.032502181828022,
+      "learning_rate": 5.521472392638038e-06,
+      "loss": 0.183,
+      "step": 1180
+    },
+    {
+      "epoch": 3.6196319018404908,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.3827475905418396,
+      "eval_runtime": 13.933,
+      "eval_samples_per_second": 10.766,
+      "eval_steps_per_second": 2.727,
+      "step": 1180
+    },
+    {
+      "epoch": 3.6809815950920246,
+      "grad_norm": 0.0289248526096344,
+      "learning_rate": 5.276073619631902e-06,
+      "loss": 0.204,
+      "step": 1200
+    },
+    {
+      "epoch": 3.6809815950920246,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.5132840871810913,
+      "eval_runtime": 13.9107,
+      "eval_samples_per_second": 10.783,
+      "eval_steps_per_second": 2.732,
+      "step": 1200
+    },
+    {
+      "epoch": 3.7423312883435584,
+      "grad_norm": 1.0068583488464355,
+      "learning_rate": 5.030674846625767e-06,
+      "loss": 0.0758,
+      "step": 1220
+    },
+    {
+      "epoch": 3.7423312883435584,
+      "eval_accuracy": 0.9133333333333333,
+      "eval_loss": 0.4279702305793762,
+      "eval_runtime": 13.8908,
+      "eval_samples_per_second": 10.799,
+      "eval_steps_per_second": 2.736,
+      "step": 1220
+    },
+    {
+      "epoch": 3.8036809815950923,
+      "grad_norm": 0.0101453373208642,
+      "learning_rate": 4.785276073619632e-06,
+      "loss": 0.0237,
+      "step": 1240
+    },
+    {
+      "epoch": 3.8036809815950923,
+      "eval_accuracy": 0.92,
+      "eval_loss": 0.3941916823387146,
+      "eval_runtime": 13.8887,
+      "eval_samples_per_second": 10.8,
+      "eval_steps_per_second": 2.736,
+      "step": 1240
+    },
+    {
+      "epoch": 3.8650306748466257,
+      "grad_norm": 182.59510803222656,
+      "learning_rate": 4.539877300613497e-06,
+      "loss": 0.2143,
+      "step": 1260
+    },
+    {
+      "epoch": 3.8650306748466257,
+      "eval_accuracy": 0.9066666666666666,
+      "eval_loss": 0.36801090836524963,
+      "eval_runtime": 13.8946,
+      "eval_samples_per_second": 10.796,
+      "eval_steps_per_second": 2.735,
+      "step": 1260
+    },
+    {
+      "epoch": 3.9263803680981595,
+      "grad_norm": 0.03958132117986679,
+      "learning_rate": 4.294478527607362e-06,
+      "loss": 0.0106,
+      "step": 1280
+    },
+    {
+      "epoch": 3.9263803680981595,
+      "eval_accuracy": 0.8866666666666667,
+      "eval_loss": 0.5633125901222229,
+      "eval_runtime": 13.9747,
+      "eval_samples_per_second": 10.734,
+      "eval_steps_per_second": 2.719,
+      "step": 1280
+    },
+    {
+      "epoch": 3.9877300613496933,
+      "grad_norm": 140.984375,
+      "learning_rate": 4.049079754601227e-06,
+      "loss": 0.2221,
+      "step": 1300
+    },
+    {
+      "epoch": 3.9877300613496933,
+      "eval_accuracy": 0.92,
+      "eval_loss": 0.38154712319374084,
+      "eval_runtime": 13.996,
+      "eval_samples_per_second": 10.717,
+      "eval_steps_per_second": 2.715,
+      "step": 1300
+    },
+    {
+      "epoch": 4.049079754601227,
+      "grad_norm": 0.0037327792961150408,
+      "learning_rate": 3.8036809815950928e-06,
+      "loss": 0.0212,
+      "step": 1320
+    },
+    {
+      "epoch": 4.049079754601227,
+      "eval_accuracy": 0.9266666666666666,
+      "eval_loss": 0.4598991274833679,
+      "eval_runtime": 13.9374,
+      "eval_samples_per_second": 10.762,
+      "eval_steps_per_second": 2.726,
+      "step": 1320
+    },
+    {
+      "epoch": 4.110429447852761,
+      "grad_norm": 0.010530122555792332,
+      "learning_rate": 3.5582822085889574e-06,
+      "loss": 0.1678,
+      "step": 1340
+    },
+    {
+      "epoch": 4.110429447852761,
+      "eval_accuracy": 0.92,
+      "eval_loss": 0.34579145908355713,
+      "eval_runtime": 13.9042,
+      "eval_samples_per_second": 10.788,
+      "eval_steps_per_second": 2.733,
+      "step": 1340
+    },
+    {
+      "epoch": 4.171779141104294,
+      "grad_norm": 0.015701429918408394,
+      "learning_rate": 3.312883435582822e-06,
+      "loss": 0.1153,
+      "step": 1360
+    },
+    {
+      "epoch": 4.171779141104294,
+      "eval_accuracy": 0.92,
+      "eval_loss": 0.3261447250843048,
+      "eval_runtime": 13.9236,
+      "eval_samples_per_second": 10.773,
+      "eval_steps_per_second": 2.729,
+      "step": 1360
+    },
+    {
+      "epoch": 4.233128834355828,
+      "grad_norm": 0.011384344659745693,
+      "learning_rate": 3.0674846625766875e-06,
+      "loss": 0.0006,
+      "step": 1380
+    },
+    {
+      "epoch": 4.233128834355828,
+      "eval_accuracy": 0.9133333333333333,
+      "eval_loss": 0.3404422998428345,
+      "eval_runtime": 13.9552,
+      "eval_samples_per_second": 10.749,
+      "eval_steps_per_second": 2.723,
+      "step": 1380
+    },
+    {
+      "epoch": 4.294478527607362,
+      "grad_norm": 0.08929850906133652,
+      "learning_rate": 2.822085889570552e-06,
+      "loss": 0.0193,
+      "step": 1400
+    },
+    {
+      "epoch": 4.294478527607362,
+      "eval_accuracy": 0.92,
+      "eval_loss": 0.3601679503917694,
+      "eval_runtime": 13.9574,
+      "eval_samples_per_second": 10.747,
+      "eval_steps_per_second": 2.723,
+      "step": 1400
+    },
+    {
+      "epoch": 4.355828220858895,
+      "grad_norm": 129.2814483642578,
+      "learning_rate": 2.5766871165644175e-06,
+      "loss": 0.0994,
+      "step": 1420
+    },
+    {
+      "epoch": 4.355828220858895,
+      "eval_accuracy": 0.94,
+      "eval_loss": 0.33025145530700684,
+      "eval_runtime": 13.9627,
+      "eval_samples_per_second": 10.743,
+      "eval_steps_per_second": 2.722,
+      "step": 1420
+    },
+    {
+      "epoch": 4.41717791411043,
+      "grad_norm": 0.024497592821717262,
+      "learning_rate": 2.331288343558282e-06,
+      "loss": 0.0032,
+      "step": 1440
+    },
+    {
+      "epoch": 4.41717791411043,
+      "eval_accuracy": 0.94,
+      "eval_loss": 0.2884907126426697,
+      "eval_runtime": 13.9317,
+      "eval_samples_per_second": 10.767,
+      "eval_steps_per_second": 2.728,
+      "step": 1440
+    },
+    {
+      "epoch": 4.478527607361963,
+      "grad_norm": 0.009228991344571114,
+      "learning_rate": 2.085889570552147e-06,
+      "loss": 0.0008,
+      "step": 1460
+    },
+    {
+      "epoch": 4.478527607361963,
+      "eval_accuracy": 0.92,
+      "eval_loss": 0.31121641397476196,
+      "eval_runtime": 13.9417,
+      "eval_samples_per_second": 10.759,
+      "eval_steps_per_second": 2.726,
+      "step": 1460
+    },
+    {
+      "epoch": 4.539877300613497,
+      "grad_norm": 0.22681556642055511,
+      "learning_rate": 1.8404907975460124e-06,
+      "loss": 0.0823,
+      "step": 1480
+    },
+    {
+      "epoch": 4.539877300613497,
+      "eval_accuracy": 0.9266666666666666,
+      "eval_loss": 0.3145321011543274,
+      "eval_runtime": 13.9075,
+      "eval_samples_per_second": 10.786,
+      "eval_steps_per_second": 2.732,
+      "step": 1480
+    },
+    {
+      "epoch": 4.601226993865031,
+      "grad_norm": 0.010360241867601871,
+      "learning_rate": 1.5950920245398775e-06,
+      "loss": 0.0086,
+      "step": 1500
+    },
+    {
+      "epoch": 4.601226993865031,
+      "eval_accuracy": 0.94,
+      "eval_loss": 0.2954442799091339,
+      "eval_runtime": 14.0025,
+      "eval_samples_per_second": 10.712,
+      "eval_steps_per_second": 2.714,
+      "step": 1500
     }
   ],
   "logging_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 4859676225851160.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null