Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

checkpoints/checkpoint-1010/model.safetensors +3 -0
checkpoints/checkpoint-1010/optimizer.pt +3 -0
checkpoints/checkpoint-1010/rng_state.pth +3 -0
checkpoints/checkpoint-1010/scheduler.pt +3 -0
checkpoints/checkpoint-1010/trainer_state.json +569 -0
checkpoints/checkpoint-1010/training_args.bin +3 -0

checkpoints/checkpoint-1010/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a0b276628fe265b1da89742723d1e531e444e357b59e2e04a3ca1ba1ad1f0f4
+size 6020469052

checkpoints/checkpoint-1010/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8057b78d7969d06813f11870f3f638ce999f3cfbae9c8991184580d0c545398c
+size 204549186

checkpoints/checkpoint-1010/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb9d3a5dcef41265354a635ed4d257650889c2c54bf71381fb8a48f7bea6654e
+size 14180

checkpoints/checkpoint-1010/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:babddefb328e67e86fb7e81945db16146b67f693469048a8e2b8bb25bdeca0d9
+size 1064

checkpoints/checkpoint-1010/trainer_state.json ADDED Viewed

	@@ -0,0 +1,569 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.987654320987654,
+  "eval_steps": 500,
+  "global_step": 1010,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07901234567901234,
+      "grad_norm": 24.433338165283203,
+      "learning_rate": 3.1683168316831685e-06,
+      "loss": 10.4193,
+      "step": 16
+    },
+    {
+      "epoch": 0.1580246913580247,
+      "grad_norm": 12.38017749786377,
+      "learning_rate": 6.336633663366337e-06,
+      "loss": 9.306,
+      "step": 32
+    },
+    {
+      "epoch": 0.23703703703703705,
+      "grad_norm": 9.08733081817627,
+      "learning_rate": 9.504950495049505e-06,
+      "loss": 8.5947,
+      "step": 48
+    },
+    {
+      "epoch": 0.3160493827160494,
+      "grad_norm": 5.627976894378662,
+      "learning_rate": 1.2673267326732674e-05,
+      "loss": 8.3942,
+      "step": 64
+    },
+    {
+      "epoch": 0.3950617283950617,
+      "grad_norm": 4.160132884979248,
+      "learning_rate": 1.5841584158415843e-05,
+      "loss": 8.3317,
+      "step": 80
+    },
+    {
+      "epoch": 0.4740740740740741,
+      "grad_norm": 3.8646466732025146,
+      "learning_rate": 1.900990099009901e-05,
+      "loss": 8.2782,
+      "step": 96
+    },
+    {
+      "epoch": 0.5530864197530864,
+      "grad_norm": 3.153797149658203,
+      "learning_rate": 1.999277438119978e-05,
+      "loss": 8.2797,
+      "step": 112
+    },
+    {
+      "epoch": 0.6320987654320988,
+      "grad_norm": 3.0883467197418213,
+      "learning_rate": 1.995649347969019e-05,
+      "loss": 8.2899,
+      "step": 128
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "grad_norm": 2.2813191413879395,
+      "learning_rate": 1.9889775168565942e-05,
+      "loss": 8.2603,
+      "step": 144
+    },
+    {
+      "epoch": 0.7901234567901234,
+      "grad_norm": 1.9534201622009277,
+      "learning_rate": 1.9792823408445173e-05,
+      "loss": 8.2206,
+      "step": 160
+    },
+    {
+      "epoch": 0.8691358024691358,
+      "grad_norm": 2.1486434936523438,
+      "learning_rate": 1.966593458484168e-05,
+      "loss": 8.2437,
+      "step": 176
+    },
+    {
+      "epoch": 0.9481481481481482,
+      "grad_norm": 1.717513918876648,
+      "learning_rate": 1.9509496602102253e-05,
+      "loss": 8.2006,
+      "step": 192
+    },
+    {
+      "epoch": 0.9975308641975309,
+      "eval_bleu": 0.04760109116359015,
+      "eval_cap_loss": 2.677484789315392,
+      "eval_con_loss": 2.058648048662672,
+      "eval_loss": 6.794780893653047,
+      "step": 202
+    },
+    {
+      "epoch": 0.9975308641975309,
+      "eval_bleu": 0.04760109116359015,
+      "eval_cap_loss": 2.677484789315392,
+      "eval_con_loss": 2.058648048662672,
+      "eval_loss": 6.794780893653047,
+      "eval_runtime": 78.7662,
+      "eval_samples_per_second": 10.271,
+      "eval_steps_per_second": 1.295,
+      "step": 202
+    },
+    {
+      "epoch": 1.0271604938271606,
+      "grad_norm": 1.9594453573226929,
+      "learning_rate": 1.932398769756714e-05,
+      "loss": 8.1451,
+      "step": 208
+    },
+    {
+      "epoch": 1.106172839506173,
+      "grad_norm": 1.848238229751587,
+      "learning_rate": 1.9109974979578852e-05,
+      "loss": 8.1435,
+      "step": 224
+    },
+    {
+      "epoch": 1.1851851851851851,
+      "grad_norm": 1.7789127826690674,
+      "learning_rate": 1.8868112693808664e-05,
+      "loss": 8.171,
+      "step": 240
+    },
+    {
+      "epoch": 1.2641975308641975,
+      "grad_norm": 1.5801581144332886,
+      "learning_rate": 1.8599140223200716e-05,
+      "loss": 8.1993,
+      "step": 256
+    },
+    {
+      "epoch": 1.34320987654321,
+      "grad_norm": 1.7825208902359009,
+      "learning_rate": 1.8303879827647977e-05,
+      "loss": 8.1742,
+      "step": 272
+    },
+    {
+      "epoch": 1.4222222222222223,
+      "grad_norm": 1.8662821054458618,
+      "learning_rate": 1.798323413030997e-05,
+      "loss": 8.152,
+      "step": 288
+    },
+    {
+      "epoch": 1.5012345679012347,
+      "grad_norm": 1.6635081768035889,
+      "learning_rate": 1.76381833582567e-05,
+      "loss": 8.1432,
+      "step": 304
+    },
+    {
+      "epoch": 1.5802469135802468,
+      "grad_norm": 1.480753779411316,
+      "learning_rate": 1.7269782345874204e-05,
+      "loss": 8.123,
+      "step": 320
+    },
+    {
+      "epoch": 1.6592592592592592,
+      "grad_norm": 1.7623605728149414,
+      "learning_rate": 1.6879157310192537e-05,
+      "loss": 8.1464,
+      "step": 336
+    },
+    {
+      "epoch": 1.7382716049382716,
+      "grad_norm": 1.7219517230987549,
+      "learning_rate": 1.6467502407993995e-05,
+      "loss": 8.1435,
+      "step": 352
+    },
+    {
+      "epoch": 1.817283950617284,
+      "grad_norm": 1.6134917736053467,
+      "learning_rate": 1.6036076085226813e-05,
+      "loss": 8.154,
+      "step": 368
+    },
+    {
+      "epoch": 1.8962962962962964,
+      "grad_norm": 1.7360373735427856,
+      "learning_rate": 1.5586197229884185e-05,
+      "loss": 8.1822,
+      "step": 384
+    },
+    {
+      "epoch": 1.9753086419753085,
+      "grad_norm": 1.8116141557693481,
+      "learning_rate": 1.5119241140109466e-05,
+      "loss": 8.1585,
+      "step": 400
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu": 0.048510890987172074,
+      "eval_cap_loss": 2.6132850997588215,
+      "eval_con_loss": 2.058407783508301,
+      "eval_loss": 6.730100673787734,
+      "step": 405
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu": 0.048510890987172074,
+      "eval_cap_loss": 2.6132850997588215,
+      "eval_con_loss": 2.058407783508301,
+      "eval_loss": 6.730100673787734,
+      "eval_runtime": 82.3042,
+      "eval_samples_per_second": 9.829,
+      "eval_steps_per_second": 1.239,
+      "step": 405
+    },
+    {
+      "epoch": 2.054320987654321,
+      "grad_norm": 1.8309221267700195,
+      "learning_rate": 1.4636635319853274e-05,
+      "loss": 8.1317,
+      "step": 416
+    },
+    {
+      "epoch": 2.1333333333333333,
+      "grad_norm": 1.6076328754425049,
+      "learning_rate": 1.4139855114935253e-05,
+      "loss": 8.1451,
+      "step": 432
+    },
+    {
+      "epoch": 2.212345679012346,
+      "grad_norm": 1.7202519178390503,
+      "learning_rate": 1.3630419202851287e-05,
+      "loss": 8.1401,
+      "step": 448
+    },
+    {
+      "epoch": 2.291358024691358,
+      "grad_norm": 1.7173830270767212,
+      "learning_rate": 1.3109884950114007e-05,
+      "loss": 8.1416,
+      "step": 464
+    },
+    {
+      "epoch": 2.3703703703703702,
+      "grad_norm": 1.7003859281539917,
+      "learning_rate": 1.2579843651319382e-05,
+      "loss": 8.1209,
+      "step": 480
+    },
+    {
+      "epoch": 2.449382716049383,
+      "grad_norm": 1.6290701627731323,
+      "learning_rate": 1.2041915664493763e-05,
+      "loss": 8.1018,
+      "step": 496
+    },
+    {
+      "epoch": 2.528395061728395,
+      "grad_norm": 1.78144371509552,
+      "learning_rate": 1.1497745457592817e-05,
+      "loss": 8.1039,
+      "step": 512
+    },
+    {
+      "epoch": 2.6074074074074076,
+      "grad_norm": 1.551781415939331,
+      "learning_rate": 1.0948996581295437e-05,
+      "loss": 8.1037,
+      "step": 528
+    },
+    {
+      "epoch": 2.68641975308642,
+      "grad_norm": 2.156895637512207,
+      "learning_rate": 1.0397346583460972e-05,
+      "loss": 8.1212,
+      "step": 544
+    },
+    {
+      "epoch": 2.765432098765432,
+      "grad_norm": 1.6621625423431396,
+      "learning_rate": 9.844481880796492e-06,
+      "loss": 8.1438,
+      "step": 560
+    },
+    {
+      "epoch": 2.8444444444444446,
+      "grad_norm": 1.603384017944336,
+      "learning_rate": 9.292092603411642e-06,
+      "loss": 8.0666,
+      "step": 576
+    },
+    {
+      "epoch": 2.9234567901234567,
+      "grad_norm": 1.8245571851730347,
+      "learning_rate": 8.741867428021447e-06,
+      "loss": 8.1017,
+      "step": 592
+    },
+    {
+      "epoch": 2.9975308641975307,
+      "eval_bleu": 0.05650729222483089,
+      "eval_cap_loss": 2.583449826521032,
+      "eval_con_loss": 2.0582562147402297,
+      "eval_loss": 6.699962258338928,
+      "step": 607
+    },
+    {
+      "epoch": 2.9975308641975307,
+      "eval_bleu": 0.05650729222483089,
+      "eval_cap_loss": 2.583449826521032,
+      "eval_con_loss": 2.0582562147402297,
+      "eval_loss": 6.699962258338928,
+      "eval_runtime": 81.7977,
+      "eval_samples_per_second": 9.89,
+      "eval_steps_per_second": 1.247,
+      "step": 607
+    },
+    {
+      "epoch": 3.0024691358024693,
+      "grad_norm": 2.2745141983032227,
+      "learning_rate": 8.195488415592238e-06,
+      "loss": 8.0643,
+      "step": 608
+    },
+    {
+      "epoch": 3.0814814814814815,
+      "grad_norm": 1.972432017326355,
+      "learning_rate": 7.654625869212147e-06,
+      "loss": 8.09,
+      "step": 624
+    },
+    {
+      "epoch": 3.1604938271604937,
+      "grad_norm": 1.9584094285964966,
+      "learning_rate": 7.120933227905971e-06,
+      "loss": 8.1158,
+      "step": 640
+    },
+    {
+      "epoch": 3.2395061728395063,
+      "grad_norm": 1.9004019498825073,
+      "learning_rate": 6.59604201200412e-06,
+      "loss": 8.1292,
+      "step": 656
+    },
+    {
+      "epoch": 3.3185185185185184,
+      "grad_norm": 1.9189977645874023,
+      "learning_rate": 6.081556835517955e-06,
+      "loss": 8.1141,
+      "step": 672
+    },
+    {
+      "epoch": 3.397530864197531,
+      "grad_norm": 2.1858201026916504,
+      "learning_rate": 5.579050500768837e-06,
+      "loss": 8.0591,
+      "step": 688
+    },
+    {
+      "epoch": 3.476543209876543,
+      "grad_norm": 1.8498514890670776,
+      "learning_rate": 5.090059190266779e-06,
+      "loss": 8.0868,
+      "step": 704
+    },
+    {
+      "epoch": 3.5555555555555554,
+      "grad_norm": 1.8132171630859375,
+      "learning_rate": 4.616077770537453e-06,
+      "loss": 8.1157,
+      "step": 720
+    },
+    {
+      "epoch": 3.634567901234568,
+      "grad_norm": 1.8233318328857422,
+      "learning_rate": 4.158555222253772e-06,
+      "loss": 8.0593,
+      "step": 736
+    },
+    {
+      "epoch": 3.71358024691358,
+      "grad_norm": 2.037637710571289,
+      "learning_rate": 3.718890210642442e-06,
+      "loss": 8.0928,
+      "step": 752
+    },
+    {
+      "epoch": 3.7925925925925927,
+      "grad_norm": 2.0393972396850586,
+      "learning_rate": 3.2984268097069284e-06,
+      "loss": 8.1042,
+      "step": 768
+    },
+    {
+      "epoch": 3.871604938271605,
+      "grad_norm": 2.3308756351470947,
+      "learning_rate": 2.898450393337977e-06,
+      "loss": 8.0735,
+      "step": 784
+    },
+    {
+      "epoch": 3.950617283950617,
+      "grad_norm": 2.4082491397857666,
+      "learning_rate": 2.5201837058728506e-06,
+      "loss": 8.0676,
+      "step": 800
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu": 0.05697650729846282,
+      "eval_cap_loss": 2.558951176849066,
+      "eval_con_loss": 2.0581041083616367,
+      "eval_loss": 6.675159391234903,
+      "step": 810
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu": 0.05697650729846282,
+      "eval_cap_loss": 2.558951176849066,
+      "eval_con_loss": 2.0581041083616367,
+      "eval_loss": 6.675159391234903,
+      "eval_runtime": 82.0084,
+      "eval_samples_per_second": 9.865,
+      "eval_steps_per_second": 1.244,
+      "step": 810
+    },
+    {
+      "epoch": 4.029629629629629,
+      "grad_norm": 1.9233280420303345,
+      "learning_rate": 2.1647831241156304e-06,
+      "loss": 8.036,
+      "step": 816
+    },
+    {
+      "epoch": 4.108641975308642,
+      "grad_norm": 2.235079288482666,
+      "learning_rate": 1.8333351222458407e-06,
+      "loss": 8.118,
+      "step": 832
+    },
+    {
+      "epoch": 4.187654320987654,
+      "grad_norm": 1.9698057174682617,
+      "learning_rate": 1.5268529504222262e-06,
+      "loss": 8.0767,
+      "step": 848
+    },
+    {
+      "epoch": 4.266666666666667,
+      "grad_norm": 2.0586202144622803,
+      "learning_rate": 1.2462735372353996e-06,
+      "loss": 8.0563,
+      "step": 864
+    },
+    {
+      "epoch": 4.345679012345679,
+      "grad_norm": 2.1375420093536377,
+      "learning_rate": 9.924546254786493e-07,
+      "loss": 8.0677,
+      "step": 880
+    },
+    {
+      "epoch": 4.424691358024692,
+      "grad_norm": 2.169581651687622,
+      "learning_rate": 7.661721499929753e-07,
+      "loss": 8.0669,
+      "step": 896
+    },
+    {
+      "epoch": 4.503703703703704,
+      "grad_norm": 2.463855743408203,
+      "learning_rate": 5.681178656024055e-07,
+      "loss": 8.084,
+      "step": 912
+    },
+    {
+      "epoch": 4.582716049382716,
+      "grad_norm": 1.940145492553711,
+      "learning_rate": 3.988972323910778e-07,
+      "loss": 8.0663,
+      "step": 928
+    },
+    {
+      "epoch": 4.661728395061728,
+      "grad_norm": 1.9443929195404053,
+      "learning_rate": 2.5902756478688674e-07,
+      "loss": 8.0821,
+      "step": 944
+    },
+    {
+      "epoch": 4.7407407407407405,
+      "grad_norm": 2.3160784244537354,
+      "learning_rate": 1.489364501100332e-07,
+      "loss": 8.0705,
+      "step": 960
+    },
+    {
+      "epoch": 4.8197530864197535,
+      "grad_norm": 2.41857647895813,
+      "learning_rate": 6.896044142100433e-08,
+      "loss": 8.0233,
+      "step": 976
+    },
+    {
+      "epoch": 4.898765432098766,
+      "grad_norm": 2.4384217262268066,
+      "learning_rate": 1.9344028664056715e-08,
+      "loss": 8.0523,
+      "step": 992
+    },
+    {
+      "epoch": 4.977777777777778,
+      "grad_norm": 2.1525607109069824,
+      "learning_rate": 2.388912514017516e-10,
+      "loss": 8.0613,
+      "step": 1008
+    },
+    {
+      "epoch": 4.987654320987654,
+      "eval_bleu": 0.058703717215517995,
+      "eval_cap_loss": 2.577115478468876,
+      "eval_con_loss": 2.058133321649888,
+      "eval_loss": 6.693382112418904,
+      "step": 1010
+    },
+    {
+      "epoch": 4.987654320987654,
+      "eval_bleu": 0.058703717215517995,
+      "eval_cap_loss": 2.577115478468876,
+      "eval_con_loss": 2.058133321649888,
+      "eval_loss": 6.693382112418904,
+      "eval_runtime": 79.8358,
+      "eval_samples_per_second": 10.133,
+      "eval_steps_per_second": 1.278,
+      "step": 1010
+    }
+  ],
+  "logging_steps": 16,
+  "max_steps": 1010,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-1010/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee2a8b576b9d39a0aa2b1efffaf0e18c5b6404521c5e4285d4b45363bd019569
+size 5176