Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +260 -14
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2f33bd5c78c472f08c3786b1298722f32ab8840d3924add4ac8d0af9d6e7db1
 size 497805008

 version https://git-lfs.github.com/spec/v1
+oid sha256:fefe5f0ea45646be108812e8c1453ba92bdc95d2d02b603c7133670673eeba15
 size 497805008

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d133e101b212cdd7c1141e73d6f16e6020f0287786b2b66066ce8eacf6a92a45
 size 995704133

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e72f0c8a3b07a250a91b5d8aacb097a90d0777ab014441e46c8bcb7c3eb4537
 size 995704133

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69da5318c712d6d0aa52703c7f434638523a4ccd69426653534a5d28149575bc
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ffb0048e2cf4695cac5f2bc75487563fd01379a8f5c878f5405cd126fd821ba
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc92e8c6ac35d569c4ab17f395a4ac90783d80d786f272b0e4e95e53d403a71e
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:87c8ea1662b60de4bc1af77a1d5f57df4bd34ba3d37570aafc8387132ebbe7bc
 size 627

trainer_state.json CHANGED Viewed

@@ -1,30 +1,276 @@
 {
-  "best_metric": 1.461557388305664,
-  "best_model_checkpoint": "tam_test_out_drug_data/checkpoint-449",
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 449,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.4680554263926346,
-      "eval_loss": 1.461557388305664,
-      "eval_runtime": 17.5828,
-      "eval_samples_per_second": 611.563,
-      "eval_steps_per_second": 8.531,
-      "step": 449
     }
   ],
   "logging_steps": 500,
-  "max_steps": 2245,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 4230514189025280.0,
-  "train_batch_size": 72,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.410697102546692,
+  "best_model_checkpoint": "tam_test_out_drug_data/checkpoint-1011",
+  "epoch": 19.0,
   "eval_steps": 500,
+  "global_step": 6403,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.46396354505719334,
+      "eval_loss": 1.46442449092865,
+      "eval_runtime": 15.0839,
+      "eval_samples_per_second": 712.879,
+      "eval_steps_per_second": 7.491,
+      "step": 337
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 391296.28125,
+      "learning_rate": 5.554896142433234e-05,
+      "loss": 1.6493,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.47372826188040545,
+      "eval_loss": 1.4272058010101318,
+      "eval_runtime": 15.1004,
+      "eval_samples_per_second": 712.101,
+      "eval_steps_per_second": 7.483,
+      "step": 674
+    },
+    {
+      "epoch": 2.97,
+      "grad_norm": 266398.21875,
+      "learning_rate": 5.109792284866469e-05,
+      "loss": 1.3762,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.47456523760810937,
+      "eval_loss": 1.410697102546692,
+      "eval_runtime": 15.0489,
+      "eval_samples_per_second": 714.539,
+      "eval_steps_per_second": 7.509,
+      "step": 1011
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.4733562726680926,
+      "eval_loss": 1.4484425783157349,
+      "eval_runtime": 15.0431,
+      "eval_samples_per_second": 714.813,
+      "eval_steps_per_second": 7.512,
+      "step": 1348
+    },
+    {
+      "epoch": 4.45,
+      "grad_norm": 369044.0,
+      "learning_rate": 4.664688427299703e-05,
+      "loss": 1.2056,
+      "step": 1500
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.47503022412350043,
+      "eval_loss": 1.4948519468307495,
+      "eval_runtime": 15.1534,
+      "eval_samples_per_second": 709.61,
+      "eval_steps_per_second": 7.457,
+      "step": 1685
+    },
+    {
+      "epoch": 5.93,
+      "grad_norm": 454632.0625,
+      "learning_rate": 4.219584569732938e-05,
+      "loss": 1.0582,
+      "step": 2000
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.4732632753650144,
+      "eval_loss": 1.5683261156082153,
+      "eval_runtime": 15.1769,
+      "eval_samples_per_second": 708.512,
+      "eval_steps_per_second": 7.446,
+      "step": 2022
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.4656374965126011,
+      "eval_loss": 1.6979163885116577,
+      "eval_runtime": 15.1051,
+      "eval_samples_per_second": 711.881,
+      "eval_steps_per_second": 7.481,
+      "step": 2359
+    },
+    {
+      "epoch": 7.42,
+      "grad_norm": 407773.9375,
+      "learning_rate": 3.774480712166172e-05,
+      "loss": 0.8549,
+      "step": 2500
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.47707616479122106,
+      "eval_loss": 1.8021113872528076,
+      "eval_runtime": 15.07,
+      "eval_samples_per_second": 713.539,
+      "eval_steps_per_second": 7.498,
+      "step": 2696
+    },
+    {
+      "epoch": 8.9,
+      "grad_norm": 589767.5,
+      "learning_rate": 3.3293768545994065e-05,
+      "loss": 0.7149,
+      "step": 3000
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.477913140518925,
+      "eval_loss": 1.9680180549621582,
+      "eval_runtime": 15.2684,
+      "eval_samples_per_second": 704.265,
+      "eval_steps_per_second": 7.401,
+      "step": 3033
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.4806100623081931,
+      "eval_loss": 2.1097300052642822,
+      "eval_runtime": 15.2893,
+      "eval_samples_per_second": 703.301,
+      "eval_steps_per_second": 7.391,
+      "step": 3370
+    },
+    {
+      "epoch": 10.39,
+      "grad_norm": 584814.1875,
+      "learning_rate": 2.884272997032641e-05,
+      "loss": 0.5551,
+      "step": 3500
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.46675346414953967,
+      "eval_loss": 2.3649089336395264,
+      "eval_runtime": 15.0959,
+      "eval_samples_per_second": 712.313,
+      "eval_steps_per_second": 7.485,
+      "step": 3707
+    },
+    {
+      "epoch": 11.87,
+      "grad_norm": 582511.875,
+      "learning_rate": 2.4391691394658753e-05,
+      "loss": 0.4522,
+      "step": 4000
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.47447224030503116,
+      "eval_loss": 2.432915210723877,
+      "eval_runtime": 15.1278,
+      "eval_samples_per_second": 710.811,
+      "eval_steps_per_second": 7.47,
+      "step": 4044
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.4858179112805729,
+      "eval_loss": 2.5537261962890625,
+      "eval_runtime": 15.2471,
+      "eval_samples_per_second": 705.247,
+      "eval_steps_per_second": 7.411,
+      "step": 4381
+    },
+    {
+      "epoch": 13.35,
+      "grad_norm": 696384.0625,
+      "learning_rate": 1.9940652818991097e-05,
+      "loss": 0.3587,
+      "step": 4500
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.4863758950990421,
+      "eval_loss": 2.6619648933410645,
+      "eval_runtime": 15.473,
+      "eval_samples_per_second": 694.953,
+      "eval_steps_per_second": 7.303,
+      "step": 4718
+    },
+    {
+      "epoch": 14.84,
+      "grad_norm": 512484.6875,
+      "learning_rate": 1.548961424332344e-05,
+      "loss": 0.2918,
+      "step": 5000
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.4929787036175951,
+      "eval_loss": 2.762254476547241,
+      "eval_runtime": 15.2999,
+      "eval_samples_per_second": 702.817,
+      "eval_steps_per_second": 7.386,
+      "step": 5055
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.48079605691434946,
+      "eval_loss": 2.8322901725769043,
+      "eval_runtime": 15.0354,
+      "eval_samples_per_second": 715.178,
+      "eval_steps_per_second": 7.516,
+      "step": 5392
+    },
+    {
+      "epoch": 16.32,
+      "grad_norm": 442634.8125,
+      "learning_rate": 1.1038575667655787e-05,
+      "loss": 0.2289,
+      "step": 5500
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.4767971728819864,
+      "eval_loss": 2.9443678855895996,
+      "eval_runtime": 15.2489,
+      "eval_samples_per_second": 705.165,
+      "eval_steps_per_second": 7.41,
+      "step": 5729
+    },
+    {
+      "epoch": 17.8,
+      "grad_norm": 365735.21875,
+      "learning_rate": 6.587537091988131e-06,
+      "loss": 0.1962,
+      "step": 6000
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.47828512973123777,
+      "eval_loss": 3.0224764347076416,
+      "eval_runtime": 15.2048,
+      "eval_samples_per_second": 707.209,
+      "eval_steps_per_second": 7.432,
+      "step": 6066
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.4858179112805729,
+      "eval_loss": 3.0596585273742676,
+      "eval_runtime": 15.3501,
+      "eval_samples_per_second": 700.515,
+      "eval_steps_per_second": 7.361,
+      "step": 6403
     }
   ],
   "logging_steps": 500,
+  "max_steps": 6740,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
   "save_steps": 500,
+  "total_flos": 8.068848695212032e+16,
+  "train_batch_size": 96,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:152c80564c9356977aa5d3ad48284221d3d63e6a8453a6f487f0197b1fcd7ced
 size 4603

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcf86aa1afbdd702b3daff78f76586a0908e4459d837fc5a7ab105fe1af7cc23
 size 4603