xuancoblab2023 commited on Apr 20, 2024

Commit

18c59ec

verified ·

1 Parent(s): 2e74145

Training in progress, epoch 1

Browse files

Files changed (22) hide show

logs/events.out.tfevents.1713611228.a9446dbff3d4.7440.6 +2 -2
logs/events.out.tfevents.1713611290.a9446dbff3d4.7440.7 +3 -0
model.safetensors +1 -1
run-4/checkpoint-960/config.json +1 -1
run-4/checkpoint-960/model.safetensors +1 -1
run-4/checkpoint-960/optimizer.pt +2 -2
run-4/checkpoint-960/rng_state.pth +2 -2
run-4/checkpoint-960/scheduler.pt +1 -1
run-4/checkpoint-960/trainer_state.json +91 -161
run-4/checkpoint-960/training_args.bin +2 -2
run-5/checkpoint-160/config.json +34 -0
run-5/checkpoint-160/model.safetensors +3 -0
run-5/checkpoint-160/optimizer.pt +3 -0
run-5/checkpoint-160/rng_state.pth +3 -0
run-5/checkpoint-160/scheduler.pt +3 -0
run-5/checkpoint-160/special_tokens_map.json +7 -0
run-5/checkpoint-160/tokenizer.json +0 -0
run-5/checkpoint-160/tokenizer_config.json +57 -0
run-5/checkpoint-160/trainer_state.json +46 -0
run-5/checkpoint-160/training_args.bin +3 -0
run-5/checkpoint-160/vocab.txt +0 -0
training_args.bin +1 -1

logs/events.out.tfevents.1713611228.a9446dbff3d4.7440.6 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:161b9590117795e641238dbac929a15742b18a64c71c8dd87c4f862fb45d992b
-size 6213

 version https://git-lfs.github.com/spec/v1
+oid sha256:1cd5f4ef6f503bbeea619b625ca70bb17949889eca0ee7298a6005c753f0367e
+size 9487

logs/events.out.tfevents.1713611290.a9446dbff3d4.7440.7 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89002f3b5587b2cd8b8b4c3aa110bbd0b302ed4ad939519f75fdab1c4f2d1d65
+size 5482

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0931b44185dc698bb65363708841216b9c6ddc90939480171e6ffcb248ed7413
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:dce6f22498e13b48d747633e47b75424c85f9718e6954a26e7dabeb1bd1f9f68
 size 17549312

run-4/checkpoint-960/config.json CHANGED Viewed

@@ -27,7 +27,7 @@
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
-  "transformers_version": "4.38.2",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

run-4/checkpoint-960/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9cb480c01b2955ab4659777f56d6468bbadc585e4291f6207b02514eb20e61e
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:803979e64c4edd3b8ba91d42e52a6b0829ae1c9b4780949b82cda4ed909e5e16
 size 17549312

run-4/checkpoint-960/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da3592e83ad14aebe9c980b18c0dc1ac9c15623e49972208fc3fb854289268a0
-size 35122746

 version https://git-lfs.github.com/spec/v1
+oid sha256:876c395bed9fe84ba07e5cda2b5c9a4dbec31579c3134bd1130045f1b0e624e5
+size 35123898

run-4/checkpoint-960/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6bc70fadfc325a9e3454d9d9f633805a30a7b6edb6e2dafe2e6da349874f75d0
-size 14054

 version https://git-lfs.github.com/spec/v1
+oid sha256:04833703a2abb12fa47ad4211546498a7ae2dcd9a28a03549753cff4beb5c8aa
+size 14308

run-4/checkpoint-960/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:377fe6940de29d4b1b362bdb64bc5a7963c0c1099ce7d7c87c76a44e0533c320
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d377d0cb04c26cce9c5555565bd6ca5a1df431c694a93ec3e91cbcb8e72bc5c
 size 1064

run-4/checkpoint-960/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.8258317025440313,
-  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-4/checkpoint-960",
-  "epoch": 10.0,
   "eval_steps": 500,
   "global_step": 960,
   "is_hyper_param_search": true,
@@ -10,207 +10,137 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 1.90240478515625,
-      "learning_rate": 0.0008040462940429662,
-      "loss": 0.4563,
-      "step": 96
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7446183953033269,
-      "eval_f1": 0.7473378509196515,
-      "eval_loss": 0.415781170129776,
-      "eval_precision": 0.7394636015325671,
-      "eval_recall": 0.7553816046966731,
-      "eval_runtime": 25.3619,
-      "eval_samples_per_second": 40.297,
-      "eval_steps_per_second": 1.262,
-      "step": 96
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.7548394799232483,
-      "learning_rate": 0.0007147078169270811,
-      "loss": 0.4243,
-      "step": 192
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7896281800391389,
-      "eval_f1": 0.7969782813975448,
-      "eval_loss": 0.39640527963638306,
-      "eval_precision": 0.7700729927007299,
-      "eval_recall": 0.8258317025440313,
-      "eval_runtime": 25.8877,
-      "eval_samples_per_second": 39.478,
-      "eval_steps_per_second": 1.236,
-      "step": 192
     },
     {
       "epoch": 3.0,
-      "grad_norm": 2.091404914855957,
-      "learning_rate": 0.0006253693398111959,
-      "loss": 0.4007,
-      "step": 288
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8052837573385518,
-      "eval_f1": 0.8240495137046862,
-      "eval_loss": 0.39981088042259216,
-      "eval_precision": 0.7516129032258064,
-      "eval_recall": 0.9119373776908023,
-      "eval_runtime": 25.886,
-      "eval_samples_per_second": 39.481,
-      "eval_steps_per_second": 1.236,
-      "step": 288
     },
     {
       "epoch": 4.0,
-      "grad_norm": 1.994834542274475,
-      "learning_rate": 0.0005360308626953108,
-      "loss": 0.3871,
-      "step": 384
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8082191780821918,
-      "eval_f1": 0.8175046554934823,
-      "eval_loss": 0.38285842537879944,
-      "eval_precision": 0.7797513321492007,
-      "eval_recall": 0.8590998043052838,
-      "eval_runtime": 25.8573,
-      "eval_samples_per_second": 39.525,
-      "eval_steps_per_second": 1.238,
-      "step": 384
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.7219040393829346,
-      "learning_rate": 0.00044669238557942565,
-      "loss": 0.378,
-      "step": 480
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.773972602739726,
-      "eval_f1": 0.7640449438202248,
-      "eval_loss": 0.39512935280799866,
-      "eval_precision": 0.7991452991452992,
-      "eval_recall": 0.7318982387475538,
-      "eval_runtime": 25.8711,
-      "eval_samples_per_second": 39.503,
-      "eval_steps_per_second": 1.237,
-      "step": 480
     },
     {
       "epoch": 6.0,
-      "grad_norm": 1.2725290060043335,
-      "learning_rate": 0.00035735390846354054,
-      "loss": 0.3759,
-      "step": 576
-    },
-    {
-      "epoch": 6.0,
-      "eval_accuracy": 0.815068493150685,
-      "eval_f1": 0.8270814272644098,
-      "eval_loss": 0.3832918703556061,
-      "eval_precision": 0.7766323024054983,
-      "eval_recall": 0.8845401174168297,
-      "eval_runtime": 26.2709,
-      "eval_samples_per_second": 38.902,
-      "eval_steps_per_second": 1.218,
-      "step": 576
-    },
-    {
-      "epoch": 7.0,
-      "grad_norm": 0.7257367968559265,
-      "learning_rate": 0.0002680154313476554,
-      "loss": 0.3679,
-      "step": 672
-    },
-    {
-      "epoch": 7.0,
-      "eval_accuracy": 0.815068493150685,
-      "eval_f1": 0.8280254777070064,
-      "eval_loss": 0.37927353382110596,
-      "eval_precision": 0.7738095238095238,
-      "eval_recall": 0.8904109589041096,
-      "eval_runtime": 25.5612,
-      "eval_samples_per_second": 39.982,
-      "eval_steps_per_second": 1.252,
-      "step": 672
-    },
-    {
-      "epoch": 8.0,
-      "grad_norm": 1.1571022272109985,
-      "learning_rate": 0.00017867695423177027,
-      "loss": 0.3609,
-      "step": 768
-    },
-    {
-      "epoch": 8.0,
-      "eval_accuracy": 0.8238747553816047,
-      "eval_f1": 0.832089552238806,
-      "eval_loss": 0.37364885210990906,
-      "eval_precision": 0.7950089126559715,
-      "eval_recall": 0.87279843444227,
-      "eval_runtime": 25.5421,
-      "eval_samples_per_second": 40.012,
-      "eval_steps_per_second": 1.253,
-      "step": 768
-    },
-    {
-      "epoch": 9.0,
-      "grad_norm": 0.6674935817718506,
-      "learning_rate": 8.933847711588513e-05,
-      "loss": 0.3556,
-      "step": 864
-    },
-    {
-      "epoch": 9.0,
-      "eval_accuracy": 0.8238747553816047,
-      "eval_f1": 0.8314606741573034,
-      "eval_loss": 0.3790241479873657,
-      "eval_precision": 0.7971274685816876,
-      "eval_recall": 0.8688845401174168,
-      "eval_runtime": 26.0614,
-      "eval_samples_per_second": 39.215,
-      "eval_steps_per_second": 1.228,
-      "step": 864
-    },
-    {
-      "epoch": 10.0,
-      "grad_norm": 1.1517527103424072,
       "learning_rate": 0.0,
-      "loss": 0.3558,
       "step": 960
     },
     {
-      "epoch": 10.0,
-      "eval_accuracy": 0.8258317025440313,
-      "eval_f1": 0.8327067669172932,
-      "eval_loss": 0.3765825033187866,
-      "eval_precision": 0.8010849909584087,
-      "eval_recall": 0.8669275929549902,
-      "eval_runtime": 25.5387,
-      "eval_samples_per_second": 40.018,
-      "eval_steps_per_second": 1.253,
       "step": 960
     }
   ],
   "logging_steps": 500,
   "max_steps": 960,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 2356951972800.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.6601531096042508,
-    "learning_rate": 0.0008933847711588513,
-    "num_train_epochs": 10,
-    "temperature": 4
   }
 }

 {
+  "best_metric": 0.6674509803921569,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-4/checkpoint-160",
+  "epoch": 6.0,
   "eval_steps": 500,
   "global_step": 960,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.30153390765190125,
+      "learning_rate": 0.0001806546260556293,
+      "loss": 0.1164,
+      "step": 160
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6674509803921569,
+      "eval_f1": 0.03636363636363636,
+      "eval_loss": 0.10561967641115189,
+      "eval_mcc": 0.04629100498862757,
+      "eval_precision": 0.5333333333333333,
+      "eval_recall": 0.018823529411764704,
+      "eval_runtime": 1.857,
+      "eval_samples_per_second": 686.581,
+      "eval_steps_per_second": 21.54,
+      "step": 160
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.2800346910953522,
+      "learning_rate": 0.00014452370084450344,
+      "loss": 0.1067,
+      "step": 320
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6658823529411765,
+      "eval_f1": 0.049107142857142856,
+      "eval_loss": 0.10315733402967453,
+      "eval_mcc": 0.04166956048662825,
+      "eval_precision": 0.4782608695652174,
+      "eval_recall": 0.02588235294117647,
+      "eval_runtime": 1.8766,
+      "eval_samples_per_second": 679.417,
+      "eval_steps_per_second": 21.315,
+      "step": 320
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.29303914308547974,
+      "learning_rate": 0.00010839277563337758,
+      "loss": 0.1049,
+      "step": 480
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.6603921568627451,
+      "eval_f1": 0.06881720430107525,
+      "eval_loss": 0.10350044816732407,
+      "eval_mcc": 0.02545139051903111,
+      "eval_precision": 0.4,
+      "eval_recall": 0.03764705882352941,
+      "eval_runtime": 1.8927,
+      "eval_samples_per_second": 673.655,
+      "eval_steps_per_second": 21.134,
+      "step": 480
     },
     {
       "epoch": 4.0,
+      "grad_norm": 0.34386146068573,
+      "learning_rate": 7.226185042225172e-05,
+      "loss": 0.1043,
+      "step": 640
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_f1": 0.0534521158129176,
+      "eval_loss": 0.1024671271443367,
+      "eval_mcc": 0.04897021068743918,
+      "eval_precision": 0.5,
+      "eval_recall": 0.02823529411764706,
+      "eval_runtime": 1.8897,
+      "eval_samples_per_second": 674.694,
+      "eval_steps_per_second": 21.167,
+      "step": 640
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.266721248626709,
+      "learning_rate": 3.613092521112586e-05,
+      "loss": 0.1039,
+      "step": 800
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.6643137254901961,
+      "eval_f1": 0.06550218340611354,
+      "eval_loss": 0.10257755219936371,
+      "eval_mcc": 0.04191297423079544,
+      "eval_precision": 0.45454545454545453,
+      "eval_recall": 0.03529411764705882,
+      "eval_runtime": 1.872,
+      "eval_samples_per_second": 681.081,
+      "eval_steps_per_second": 21.367,
+      "step": 800
     },
     {
       "epoch": 6.0,
+      "grad_norm": 0.17371755838394165,
       "learning_rate": 0.0,
+      "loss": 0.1031,
       "step": 960
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_f1": 0.06593406593406594,
+      "eval_loss": 0.10186242312192917,
+      "eval_mcc": 0.05488212999484517,
+      "eval_precision": 0.5,
+      "eval_recall": 0.03529411764705882,
+      "eval_runtime": 1.8824,
+      "eval_samples_per_second": 677.342,
+      "eval_steps_per_second": 21.25,
       "step": 960
     }
   ],
   "logging_steps": 500,
   "max_steps": 960,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
+  "total_flos": 1750532627520.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.1455909339678303,
+    "learning_rate": 0.00021678555126675516,
+    "num_train_epochs": 6,
+    "temperature": 19
   }
 }

run-4/checkpoint-960/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05a27237c59bc1684c5bc675b662fc3c971fc4d8663bd9fafef0f646ea921a93
-size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:68048bf7148340488c5af59583501491a10f4f2cdd872d35119499ea279b6aeb
+size 5048

run-5/checkpoint-160/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-5/checkpoint-160/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dce6f22498e13b48d747633e47b75424c85f9718e6954a26e7dabeb1bd1f9f68
+size 17549312

run-5/checkpoint-160/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77beb9d65438b02224e983e17af7c98bb455daf477224089ecac7fe4b6645190
+size 35123898

run-5/checkpoint-160/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0792eaff268dd73c8e104b5060a487f4ef56535ad3b58888006338b8bc298137
+size 14308

run-5/checkpoint-160/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b35db4b790bda6fadd7de9231a2496b5d26bea6bc04e62c995352ce39529ef1
+size 1064

run-5/checkpoint-160/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-5/checkpoint-160/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-5/checkpoint-160/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-5/checkpoint-160/trainer_state.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "best_metric": 0.6666666666666666,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-5/checkpoint-160",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 160,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.9986019134521484,
+      "learning_rate": 6.067732661916699e-05,
+      "loss": 0.3474,
+      "step": 160
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_f1": 0.0,
+      "eval_loss": 0.33498698472976685,
+      "eval_mcc": 0.0,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.8603,
+      "eval_samples_per_second": 685.372,
+      "eval_steps_per_second": 21.502,
+      "step": 160
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 640,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "total_flos": 291755437920.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.5122281577891578,
+    "learning_rate": 8.090310215888932e-05,
+    "num_train_epochs": 4,
+    "temperature": 14
+  }
+}

run-5/checkpoint-160/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ffdc018305c7641913fb33119db0342b974e7cbd16a23cd7b923a830af0c23d
+size 5048

run-5/checkpoint-160/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68048bf7148340488c5af59583501491a10f4f2cdd872d35119499ea279b6aeb
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ffdc018305c7641913fb33119db0342b974e7cbd16a23cd7b923a830af0c23d
 size 5048