xuancoblab2023 commited on Mar 23, 2024

Commit

e29c94e

verified ·

1 Parent(s): 8b62ffd

Training in progress, epoch 1

Browse files

Files changed (23) hide show

logs/events.out.tfevents.1711205777.a08db75a0e93.4335.1 +2 -2
logs/events.out.tfevents.1711206480.a08db75a0e93.4335.2 +3 -0
model.safetensors +1 -1
run-0/checkpoint-480/config.json +1 -1
run-0/checkpoint-480/model.safetensors +1 -1
run-0/checkpoint-480/optimizer.pt +1 -1
run-0/checkpoint-480/scheduler.pt +1 -1
run-0/checkpoint-480/trainer_state.json +62 -62
run-0/checkpoint-480/training_args.bin +1 -1
run-0/checkpoint-576/config.json +1 -1
run-0/checkpoint-576/model.safetensors +1 -1
run-0/checkpoint-576/optimizer.pt +1 -1
run-0/checkpoint-576/scheduler.pt +1 -1
run-0/checkpoint-576/trainer_state.json +73 -73
run-0/checkpoint-576/training_args.bin +1 -1
run-1/checkpoint-96/config.json +1 -1
run-1/checkpoint-96/model.safetensors +1 -1
run-1/checkpoint-96/optimizer.pt +1 -1
run-1/checkpoint-96/rng_state.pth +1 -1
run-1/checkpoint-96/scheduler.pt +1 -1
run-1/checkpoint-96/trainer_state.json +22 -41
run-1/checkpoint-96/training_args.bin +1 -1
training_args.bin +1 -1

logs/events.out.tfevents.1711205777.a08db75a0e93.4335.1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6863700bafc8d5a70a922eb5b00b33b8ba14b2d9d92c4d7c8685344403c61e00
-size 6029

 version https://git-lfs.github.com/spec/v1
+oid sha256:bff85464490dd0c2632a7c659a2811039740add28aa47e1cde4ba5ecc6c10d71
+size 9115

logs/events.out.tfevents.1711206480.a08db75a0e93.4335.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43ef9c7e2f742e721ec2c99dcab1e03e1eafb9bbb301a2001f1c824a4429488b
+size 5346

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7986c7824a1f38f48264e34b17485ad94c874c02889af130bf0863a2aa1ad19c
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:55c05c9804e560e83219b8d7f0e16c10a78191786fdb883860175414f3c5708d
 size 17549312

run-0/checkpoint-480/config.json CHANGED Viewed

@@ -27,7 +27,7 @@
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
-  "transformers_version": "4.38.2",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
+  "transformers_version": "4.39.1",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

run-0/checkpoint-480/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef39c1bfae33e269d63eca2dba3acdfd058e775356849d8caa533434a56a2116
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:e98d696ca97335f654ced1eb00ab1534239523ee99300ca68326a6a3b8e1f06d
 size 17549312

run-0/checkpoint-480/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2773d01ed3883b1e485724aa4513545bf7e3fbdc7a714d33c0bda776eb6e3bd
 size 35122746

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca9bb8cc1f373169b1d60490c9559d74ce9f27d110c797ba8a2951a4afa6860f
 size 35122746

run-0/checkpoint-480/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7803f9f54b1d30ab07b891855d766e197fb736184fcc7dedb2e51526851226c1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5df72b52b13bd8f329c563313c92428765b4b79e0489af632784b2c0db70304f
 size 1064

run-0/checkpoint-480/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.8170254403131115,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-0/checkpoint-480",
   "epoch": 5.0,
   "eval_steps": 500,
@@ -10,112 +10,112 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 1.6740443706512451,
-      "learning_rate": 0.0001218354408608861,
-      "loss": 0.4816,
       "step": 96
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7514677103718199,
-      "eval_f1": 0.7519531250000001,
-      "eval_loss": 0.41538161039352417,
-      "eval_precision": 0.7504873294346979,
-      "eval_recall": 0.7534246575342466,
-      "eval_runtime": 26.5175,
-      "eval_samples_per_second": 38.541,
-      "eval_steps_per_second": 1.207,
       "step": 96
     },
     {
       "epoch": 2.0,
-      "grad_norm": 1.7866544723510742,
-      "learning_rate": 9.137658064566457e-05,
-      "loss": 0.4182,
       "step": 192
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7798434442270059,
-      "eval_f1": 0.7817652764306499,
-      "eval_loss": 0.3980446457862854,
-      "eval_precision": 0.775,
-      "eval_recall": 0.7886497064579256,
-      "eval_runtime": 25.5088,
-      "eval_samples_per_second": 40.065,
-      "eval_steps_per_second": 1.254,
       "step": 192
     },
     {
       "epoch": 3.0,
-      "grad_norm": 2.1238555908203125,
-      "learning_rate": 6.091772043044305e-05,
-      "loss": 0.4044,
       "step": 288
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.7984344422700587,
-      "eval_f1": 0.8205574912891985,
-      "eval_loss": 0.39847832918167114,
-      "eval_precision": 0.7394034536891679,
-      "eval_recall": 0.9217221135029354,
-      "eval_runtime": 25.6502,
-      "eval_samples_per_second": 39.844,
-      "eval_steps_per_second": 1.248,
       "step": 288
     },
     {
       "epoch": 4.0,
-      "grad_norm": 2.6613142490386963,
-      "learning_rate": 3.0458860215221525e-05,
-      "loss": 0.3971,
       "step": 384
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8003913894324853,
-      "eval_f1": 0.799212598425197,
-      "eval_loss": 0.38756656646728516,
-      "eval_precision": 0.803960396039604,
-      "eval_recall": 0.7945205479452054,
-      "eval_runtime": 26.1487,
-      "eval_samples_per_second": 39.084,
-      "eval_steps_per_second": 1.224,
       "step": 384
     },
     {
       "epoch": 5.0,
-      "grad_norm": 1.489380955696106,
-      "learning_rate": 0.0,
-      "loss": 0.3912,
       "step": 480
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.8170254403131115,
-      "eval_f1": 0.8270120259019426,
-      "eval_loss": 0.3846189081668854,
-      "eval_precision": 0.7842105263157895,
-      "eval_recall": 0.8747553816046967,
-      "eval_runtime": 25.7274,
-      "eval_samples_per_second": 39.724,
-      "eval_steps_per_second": 1.244,
       "step": 480
     }
   ],
   "logging_steps": 500,
-  "max_steps": 480,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
   "total_flos": 1178475986400.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.679174768290245,
-    "learning_rate": 0.00015229430107610762,
-    "num_train_epochs": 5,
-    "temperature": 27
   }
 }

 {
+  "best_metric": 0.6046966731898239,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-0/checkpoint-480",
   "epoch": 5.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.8380242586135864,
+      "learning_rate": 8.6265645867868e-06,
+      "loss": 0.6538,
       "step": 96
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.4980430528375734,
+      "eval_f1": 0.06215722120658134,
+      "eval_loss": 0.6460775136947632,
+      "eval_precision": 0.4722222222222222,
+      "eval_recall": 0.033268101761252444,
+      "eval_runtime": 32.7473,
+      "eval_samples_per_second": 31.209,
+      "eval_steps_per_second": 0.977,
       "step": 96
     },
     {
       "epoch": 2.0,
+      "grad_norm": 1.982408046722412,
+      "learning_rate": 6.901251669429439e-06,
+      "loss": 0.6453,
       "step": 192
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.5,
+      "eval_f1": 0.019193857965451058,
+      "eval_loss": 0.6427881717681885,
+      "eval_precision": 0.5,
+      "eval_recall": 0.009784735812133072,
+      "eval_runtime": 30.8528,
+      "eval_samples_per_second": 33.125,
+      "eval_steps_per_second": 1.037,
       "step": 192
     },
     {
       "epoch": 3.0,
+      "grad_norm": 1.274803638458252,
+      "learning_rate": 5.17593875207208e-06,
+      "loss": 0.6429,
       "step": 288
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.5313111545988258,
+      "eval_f1": 0.18950930626057527,
+      "eval_loss": 0.6384090781211853,
+      "eval_precision": 0.7,
+      "eval_recall": 0.1095890410958904,
+      "eval_runtime": 29.2081,
+      "eval_samples_per_second": 34.99,
+      "eval_steps_per_second": 1.096,
       "step": 288
     },
     {
       "epoch": 4.0,
+      "grad_norm": 1.62313711643219,
+      "learning_rate": 3.4506258347147196e-06,
+      "loss": 0.6388,
       "step": 384
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.5831702544031311,
+      "eval_f1": 0.3622754491017964,
+      "eval_loss": 0.6332760453224182,
+      "eval_precision": 0.7707006369426752,
+      "eval_recall": 0.23679060665362034,
+      "eval_runtime": 28.4104,
+      "eval_samples_per_second": 35.973,
+      "eval_steps_per_second": 1.126,
       "step": 384
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.8507488965988159,
+      "learning_rate": 1.7253129173573598e-06,
+      "loss": 0.634,
       "step": 480
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.6046966731898239,
+      "eval_f1": 0.43258426966292135,
+      "eval_loss": 0.629119336605072,
+      "eval_precision": 0.7661691542288557,
+      "eval_recall": 0.3013698630136986,
+      "eval_runtime": 28.4687,
+      "eval_samples_per_second": 35.899,
+      "eval_steps_per_second": 1.124,
       "step": 480
     }
   ],
   "logging_steps": 500,
+  "max_steps": 576,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "total_flos": 1178475986400.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.9136100763812092,
+    "learning_rate": 1.035187750414416e-05,
+    "num_train_epochs": 6,
+    "temperature": 5
   }
 }

run-0/checkpoint-480/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1873f3a503b2d5b3f7200baa33f737ba864dd65edb3834d85c5b8e40b6b72f07
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebe7dd3c3e257754c6583ea668a830f19b3dc80cb7982abc3ddecb0dac8e92b5
 size 4920

run-0/checkpoint-576/config.json CHANGED Viewed

@@ -27,7 +27,7 @@
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
-  "transformers_version": "4.38.2",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
+  "transformers_version": "4.39.1",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

run-0/checkpoint-576/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4779ddd752d6806e02c8ef27c36779f88177d02efc230bb359722ee2e9bb3b42
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:866330fe997ce9bb2e742f9da273ef2f056845da03268f44e44769e26c614745
 size 17549312

run-0/checkpoint-576/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6a6063018a8db267a1e4d35b8d01d6066645909ef307ba9b19e260e769b4a5b
 size 35122746

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c0f7ba770534fe57c88682e448a57cedaf46599305b57c11661c5b2c497b40d
 size 35122746

run-0/checkpoint-576/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31ce8ebda13eb9d943e5ff0b10e5de301e1d45e261b316128872c7139d9db919
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:29cb964da2a7590070557ce0763bdb443af17a63d01f7981f09843d449341b4c
 size 1064

run-0/checkpoint-576/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.8356164383561644,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-0/checkpoint-576",
   "epoch": 6.0,
   "eval_steps": 500,
@@ -10,131 +10,131 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 2.648221731185913,
-      "learning_rate": 0.0001778537404863438,
-      "loss": 0.5789,
       "step": 96
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7700587084148728,
-      "eval_f1": 0.8049792531120332,
-      "eval_loss": 0.47850364446640015,
-      "eval_precision": 0.6988472622478387,
-      "eval_recall": 0.949119373776908,
-      "eval_runtime": 31.8773,
-      "eval_samples_per_second": 32.06,
-      "eval_steps_per_second": 1.004,
       "step": 96
     },
     {
       "epoch": 2.0,
-      "grad_norm": 4.695119857788086,
-      "learning_rate": 0.0001482114504052865,
-      "loss": 0.4663,
       "step": 192
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8131115459882583,
-      "eval_f1": 0.8323090430201932,
-      "eval_loss": 0.42822203040122986,
-      "eval_precision": 0.7547770700636943,
-      "eval_recall": 0.9275929549902152,
-      "eval_runtime": 31.0929,
-      "eval_samples_per_second": 32.869,
-      "eval_steps_per_second": 1.029,
       "step": 192
     },
     {
       "epoch": 3.0,
-      "grad_norm": 4.924405097961426,
-      "learning_rate": 0.0001185691603242292,
-      "loss": 0.4316,
       "step": 288
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8228962818003914,
-      "eval_f1": 0.8331797235023042,
-      "eval_loss": 0.4343426525592804,
-      "eval_precision": 0.7874564459930313,
-      "eval_recall": 0.8845401174168297,
-      "eval_runtime": 31.8005,
-      "eval_samples_per_second": 32.138,
-      "eval_steps_per_second": 1.006,
       "step": 288
     },
     {
       "epoch": 4.0,
-      "grad_norm": 6.703495979309082,
-      "learning_rate": 8.89268702431719e-05,
-      "loss": 0.414,
       "step": 384
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8180039138943248,
-      "eval_f1": 0.8245283018867925,
-      "eval_loss": 0.41725680232048035,
-      "eval_precision": 0.7959927140255009,
-      "eval_recall": 0.8551859099804305,
-      "eval_runtime": 32.0071,
-      "eval_samples_per_second": 31.93,
-      "eval_steps_per_second": 1.0,
       "step": 384
     },
     {
       "epoch": 5.0,
-      "grad_norm": 2.176375150680542,
-      "learning_rate": 5.92845801621146e-05,
-      "loss": 0.4042,
       "step": 480
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.8336594911937377,
-      "eval_f1": 0.8473967684021544,
-      "eval_loss": 0.4033981263637543,
-      "eval_precision": 0.7827529021558872,
-      "eval_recall": 0.923679060665362,
-      "eval_runtime": 31.1502,
-      "eval_samples_per_second": 32.809,
-      "eval_steps_per_second": 1.027,
       "step": 480
     },
     {
       "epoch": 6.0,
-      "grad_norm": 4.6770453453063965,
-      "learning_rate": 2.96422900810573e-05,
-      "loss": 0.3947,
       "step": 576
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.8356164383561644,
-      "eval_f1": 0.8497316636851521,
-      "eval_loss": 0.4074985384941101,
-      "eval_precision": 0.7825370675453048,
-      "eval_recall": 0.9295499021526419,
-      "eval_runtime": 31.7728,
-      "eval_samples_per_second": 32.166,
-      "eval_steps_per_second": 1.007,
       "step": 576
     }
   ],
   "logging_steps": 500,
-  "max_steps": 672,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
   "save_steps": 500,
   "total_flos": 1414171183680.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.9489576625421504,
-    "learning_rate": 0.00020749603056740112,
-    "num_train_epochs": 7,
-    "temperature": 28
   }
 }

 {
+  "best_metric": 0.6076320939334638,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-0/checkpoint-576",
   "epoch": 6.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.8380242586135864,
+      "learning_rate": 8.6265645867868e-06,
+      "loss": 0.6538,
       "step": 96
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.4980430528375734,
+      "eval_f1": 0.06215722120658134,
+      "eval_loss": 0.6460775136947632,
+      "eval_precision": 0.4722222222222222,
+      "eval_recall": 0.033268101761252444,
+      "eval_runtime": 32.7473,
+      "eval_samples_per_second": 31.209,
+      "eval_steps_per_second": 0.977,
       "step": 96
     },
     {
       "epoch": 2.0,
+      "grad_norm": 1.982408046722412,
+      "learning_rate": 6.901251669429439e-06,
+      "loss": 0.6453,
       "step": 192
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.5,
+      "eval_f1": 0.019193857965451058,
+      "eval_loss": 0.6427881717681885,
+      "eval_precision": 0.5,
+      "eval_recall": 0.009784735812133072,
+      "eval_runtime": 30.8528,
+      "eval_samples_per_second": 33.125,
+      "eval_steps_per_second": 1.037,
       "step": 192
     },
     {
       "epoch": 3.0,
+      "grad_norm": 1.274803638458252,
+      "learning_rate": 5.17593875207208e-06,
+      "loss": 0.6429,
       "step": 288
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.5313111545988258,
+      "eval_f1": 0.18950930626057527,
+      "eval_loss": 0.6384090781211853,
+      "eval_precision": 0.7,
+      "eval_recall": 0.1095890410958904,
+      "eval_runtime": 29.2081,
+      "eval_samples_per_second": 34.99,
+      "eval_steps_per_second": 1.096,
       "step": 288
     },
     {
       "epoch": 4.0,
+      "grad_norm": 1.62313711643219,
+      "learning_rate": 3.4506258347147196e-06,
+      "loss": 0.6388,
       "step": 384
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.5831702544031311,
+      "eval_f1": 0.3622754491017964,
+      "eval_loss": 0.6332760453224182,
+      "eval_precision": 0.7707006369426752,
+      "eval_recall": 0.23679060665362034,
+      "eval_runtime": 28.4104,
+      "eval_samples_per_second": 35.973,
+      "eval_steps_per_second": 1.126,
       "step": 384
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.8507488965988159,
+      "learning_rate": 1.7253129173573598e-06,
+      "loss": 0.634,
       "step": 480
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.6046966731898239,
+      "eval_f1": 0.43258426966292135,
+      "eval_loss": 0.629119336605072,
+      "eval_precision": 0.7661691542288557,
+      "eval_recall": 0.3013698630136986,
+      "eval_runtime": 28.4687,
+      "eval_samples_per_second": 35.899,
+      "eval_steps_per_second": 1.124,
       "step": 480
     },
     {
       "epoch": 6.0,
+      "grad_norm": 2.1146538257598877,
+      "learning_rate": 0.0,
+      "loss": 0.6325,
       "step": 576
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.6076320939334638,
+      "eval_f1": 0.4438280166435506,
+      "eval_loss": 0.6275492906570435,
+      "eval_precision": 0.7619047619047619,
+      "eval_recall": 0.3131115459882583,
+      "eval_runtime": 28.3455,
+      "eval_samples_per_second": 36.055,
+      "eval_steps_per_second": 1.129,
       "step": 576
     }
   ],
   "logging_steps": 500,
+  "max_steps": 576,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "total_flos": 1414171183680.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.9136100763812092,
+    "learning_rate": 1.035187750414416e-05,
+    "num_train_epochs": 6,
+    "temperature": 5
   }
 }

run-0/checkpoint-576/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8331ea07c172c96760b5e5803c65d803e6e6da860ef2aeb4c9d1e33d878a2a66
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebe7dd3c3e257754c6583ea668a830f19b3dc80cb7982abc3ddecb0dac8e92b5
 size 4920

run-1/checkpoint-96/config.json CHANGED Viewed

@@ -27,7 +27,7 @@
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
-  "transformers_version": "4.38.2",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
+  "transformers_version": "4.39.1",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

run-1/checkpoint-96/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6cc7e4d70d2a7114843f6215ed17a2fc8447bc6bd70f413c4cf0f8344ca39c96
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:55c05c9804e560e83219b8d7f0e16c10a78191786fdb883860175414f3c5708d
 size 17549312

run-1/checkpoint-96/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90e08c57274194bc668f3be4471281afe7a6c39aaf728f118f809a52a069cb3c
 size 35122746

 version https://git-lfs.github.com/spec/v1
+oid sha256:453bcc9c41fcfb41c3251db6e85d5c2ff538e525b3c198489f5df853345ac256
 size 35122746

run-1/checkpoint-96/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6bc13e09b59a62b6fb29cad756bfeefcce6f512c71a9054cc39e336db0b532a5
 size 14054

 version https://git-lfs.github.com/spec/v1
+oid sha256:24aa86019b8aea1c551cc1adaf38c4db2fc01de75a22af312230f6b592e0fd81
 size 14054

run-1/checkpoint-96/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cfbcdc81e5bd264efda8c8c919ca09fe2742ecdac83792b7c24b984f5a9552f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:86288a3f5338e6fa1288da8642a232d387a6d7873c6c0aef6d70a6441d28edaf
 size 1064

run-1/checkpoint-96/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.7504892367906066,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-96",
-  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 96,
   "is_hyper_param_search": true,
@@ -10,55 +10,36 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 1.0160187482833862,
-      "learning_rate": 0.00031017361242620324,
-      "loss": 0.5046,
-      "step": 48
-    },
-    {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7338551859099804,
-      "eval_f1": 0.7399617590822181,
-      "eval_loss": 0.448641836643219,
-      "eval_precision": 0.7233644859813084,
-      "eval_recall": 0.7573385518590998,
-      "eval_runtime": 30.0153,
-      "eval_samples_per_second": 34.049,
-      "eval_steps_per_second": 0.533,
-      "step": 48
-    },
-    {
-      "epoch": 2.0,
-      "grad_norm": 3.3045527935028076,
-      "learning_rate": 0.00015508680621310162,
-      "loss": 0.4485,
       "step": 96
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7504892367906066,
-      "eval_f1": 0.7395301327885597,
-      "eval_loss": 0.4257463812828064,
-      "eval_precision": 0.7735042735042735,
-      "eval_recall": 0.7084148727984344,
-      "eval_runtime": 28.6578,
-      "eval_samples_per_second": 35.662,
-      "eval_steps_per_second": 0.558,
       "step": 96
     }
   ],
   "logging_steps": 500,
-  "max_steps": 144,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 471390394560.0,
-  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.7333074246521317,
-    "learning_rate": 0.00046526041863930486,
-    "num_train_epochs": 3,
-    "temperature": 17
   }
 }

 {
+  "best_metric": 0.5058708414872799,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-96",
+  "epoch": 1.0,
   "eval_steps": 500,
   "global_step": 96,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.3468107581138611,
+      "learning_rate": 3.003997555812601e-05,
+      "loss": 0.3254,
       "step": 96
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5058708414872799,
+      "eval_f1": 0.04896421845574388,
+      "eval_loss": 0.30459368228912354,
+      "eval_precision": 0.65,
+      "eval_recall": 0.025440313111545987,
+      "eval_runtime": 28.2331,
+      "eval_samples_per_second": 36.199,
+      "eval_steps_per_second": 1.133,
       "step": 96
     }
   ],
   "logging_steps": 500,
+  "max_steps": 192,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 500,
+  "total_flos": 235695197280.0,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.3812783883027333,
+    "learning_rate": 6.007995111625202e-05,
+    "num_train_epochs": 2,
+    "temperature": 27
   }
 }

run-1/checkpoint-96/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2cac056bbb00ee08372e629f1f168fb88db9cbeb0daea6323374a9050531aaa
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:c269c0d2dbd92d16b973c47db85dda2eecea4e2aa70dfe60d322e9a0b7bcac4e
 size 4920

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c0967cc1aebc72646b1634b2a505d0131b61790f8449416683fb0b8bf534fc0
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:c269c0d2dbd92d16b973c47db85dda2eecea4e2aa70dfe60d322e9a0b7bcac4e
 size 4920