xuancoblab2023 commited on Apr 20, 2024

Commit

92c2453

verified ·

1 Parent(s): 3f2bd3c

Training in progress, epoch 13

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

logs/events.out.tfevents.1713595624.1376c752d37a.9760.67 +3 -0
logs/events.out.tfevents.1713595759.1376c752d37a.9760.68 +3 -0
logs/events.out.tfevents.1713595776.1376c752d37a.9760.69 +3 -0
logs/events.out.tfevents.1713596116.1376c752d37a.9760.70 +3 -0
logs/events.out.tfevents.1713596133.1376c752d37a.9760.71 +3 -0
logs/events.out.tfevents.1713596166.1376c752d37a.9760.72 +3 -0
logs/events.out.tfevents.1713596184.1376c752d37a.9760.73 +3 -0
logs/events.out.tfevents.1713596200.1376c752d37a.9760.74 +3 -0
model.safetensors +1 -1
run-14/checkpoint-1284/config.json +34 -0
run-14/checkpoint-1284/model.safetensors +3 -0
run-14/checkpoint-1284/optimizer.pt +3 -0
run-14/checkpoint-1284/rng_state.pth +3 -0
run-14/checkpoint-1284/scheduler.pt +3 -0
run-14/checkpoint-1284/special_tokens_map.json +7 -0
run-14/checkpoint-1284/tokenizer.json +0 -0
run-14/checkpoint-1284/tokenizer_config.json +57 -0
run-14/checkpoint-1284/trainer_state.json +146 -0
run-14/checkpoint-1284/training_args.bin +3 -0
run-14/checkpoint-1284/vocab.txt +0 -0
run-14/checkpoint-1498/config.json +34 -0
run-14/checkpoint-1498/model.safetensors +3 -0
run-14/checkpoint-1498/optimizer.pt +3 -0
run-14/checkpoint-1498/rng_state.pth +3 -0
run-14/checkpoint-1498/scheduler.pt +3 -0
run-14/checkpoint-1498/special_tokens_map.json +7 -0
run-14/checkpoint-1498/tokenizer.json +0 -0
run-14/checkpoint-1498/tokenizer_config.json +57 -0
run-14/checkpoint-1498/trainer_state.json +166 -0
run-14/checkpoint-1498/training_args.bin +3 -0
run-14/checkpoint-1498/vocab.txt +0 -0
run-16/checkpoint-3210/config.json +34 -0
run-16/checkpoint-3210/model.safetensors +3 -0
run-16/checkpoint-3210/optimizer.pt +3 -0
run-16/checkpoint-3210/rng_state.pth +3 -0
run-16/checkpoint-3210/scheduler.pt +3 -0
run-16/checkpoint-3210/special_tokens_map.json +7 -0
run-16/checkpoint-3210/tokenizer.json +0 -0
run-16/checkpoint-3210/tokenizer_config.json +57 -0
run-16/checkpoint-3210/trainer_state.json +326 -0
run-16/checkpoint-3210/training_args.bin +3 -0
run-16/checkpoint-3210/vocab.txt +0 -0
run-16/checkpoint-4280/config.json +34 -0
run-16/checkpoint-4280/model.safetensors +3 -0
run-16/checkpoint-4280/optimizer.pt +3 -0
run-16/checkpoint-4280/rng_state.pth +3 -0
run-16/checkpoint-4280/scheduler.pt +3 -0
run-16/checkpoint-4280/special_tokens_map.json +7 -0
run-16/checkpoint-4280/tokenizer.json +0 -0
run-16/checkpoint-4280/tokenizer_config.json +57 -0

logs/events.out.tfevents.1713595624.1376c752d37a.9760.67 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9471d8100c934e0561d83237fa24f2b779a468ff1f2aac19db1bcbd7e230e2c0
+size 10593

logs/events.out.tfevents.1713595759.1376c752d37a.9760.68 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:05bdb97b0471e55adac8159b5240ce3fc5e25c07bde3cafd16545bc83139e207
+size 5482

logs/events.out.tfevents.1713595776.1376c752d37a.9760.69 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e1552d9d326b18eceeb0340b41c83ba0d8e80a6c862ec6dac857d17cda90f70
+size 19707

logs/events.out.tfevents.1713596116.1376c752d37a.9760.70 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1ad9b83d4ff7cc1ee9b9c3f8de2ca558e9c1328e977cab6a4b31263fb293ab9
+size 5484

logs/events.out.tfevents.1713596133.1376c752d37a.9760.71 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89f191f6e03081cbd8cab8ae26b3bbe1477eda3d195df54b0a68be900ced4df2
+size 6214

logs/events.out.tfevents.1713596166.1376c752d37a.9760.72 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0a0817846a218d061e4e148b26c97cb67f56a7d0c8b704847673b39151a6b249
+size 5483

logs/events.out.tfevents.1713596184.1376c752d37a.9760.73 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4a559d2071fc197766043391895be999e5ac349acfdc2c3cb33019bf4262965
+size 5484

logs/events.out.tfevents.1713596200.1376c752d37a.9760.74 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:39710bfa127476bb3d17efd14c8e253ab645f3f7a9560e5e03583f6880a1cc76
+size 14598

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2282d9169d95f90fa7ab4d7133bc333939d77fd4aa5f26e995771f52ce06d69
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:b28623363f40c4182e06f4f9bb646edf4f4ec476dfce17dca95ebcd5c5daa494
 size 17549312

run-14/checkpoint-1284/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-14/checkpoint-1284/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df25dea33c789fa3c6139fba7e8e839a29117c8b1ddbe95b1d5355d8fad7f8b8
+size 17549312

run-14/checkpoint-1284/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df912a86ceba8ad0a5777efa4d0f13c5d6b18b4dd64df201aeecfac4db6d9a5a
+size 35123898

run-14/checkpoint-1284/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:faa74fb48b8739c352726086ee20186281632dbf682ba20839e3522db3e3b091
+size 14308

run-14/checkpoint-1284/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:434949fd6ef2b41ba226cf137e81eeb4c37214948ccdebb368a844ff3b1b16a6
+size 1064

run-14/checkpoint-1284/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-14/checkpoint-1284/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-14/checkpoint-1284/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-14/checkpoint-1284/trainer_state.json ADDED Viewed

	@@ -0,0 +1,146 @@

+{
+  "best_metric": 0.7439953134153485,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-14/checkpoint-1284",
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 1284,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 4.230797290802002,
+      "learning_rate": 0.0004542691429405582,
+      "loss": 0.5244,
+      "step": 214
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7065026362038664,
+      "eval_f1": 0.3634053367217281,
+      "eval_loss": 0.49707961082458496,
+      "eval_mcc": 0.26187368637682734,
+      "eval_precision": 0.6559633027522935,
+      "eval_recall": 0.2513181019332162,
+      "eval_runtime": 3.1642,
+      "eval_samples_per_second": 539.474,
+      "eval_steps_per_second": 17.066,
+      "step": 214
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.7037988901138306,
+      "learning_rate": 0.0004303602406805288,
+      "loss": 0.4856,
+      "step": 428
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7047451669595782,
+      "eval_f1": 0.5019762845849802,
+      "eval_loss": 0.4853743612766266,
+      "eval_mcc": 0.3014395863411175,
+      "eval_precision": 0.5733634311512416,
+      "eval_recall": 0.44639718804920914,
+      "eval_runtime": 3.2868,
+      "eval_samples_per_second": 519.356,
+      "eval_steps_per_second": 16.43,
+      "step": 428
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 1.7830451726913452,
+      "learning_rate": 0.0004064513384204994,
+      "loss": 0.4758,
+      "step": 642
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7018160515524312,
+      "eval_f1": 0.25909752547307136,
+      "eval_loss": 0.4858837425708771,
+      "eval_mcc": 0.24331468344161114,
+      "eval_precision": 0.7542372881355932,
+      "eval_recall": 0.15641476274165203,
+      "eval_runtime": 3.1648,
+      "eval_samples_per_second": 539.369,
+      "eval_steps_per_second": 17.063,
+      "step": 642
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 1.6830062866210938,
+      "learning_rate": 0.0003825424361604701,
+      "loss": 0.4724,
+      "step": 856
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7275922671353251,
+      "eval_f1": 0.4015444015444016,
+      "eval_loss": 0.47459593415260315,
+      "eval_mcc": 0.32925006262083517,
+      "eval_precision": 0.75,
+      "eval_recall": 0.2741652021089631,
+      "eval_runtime": 3.7803,
+      "eval_samples_per_second": 451.553,
+      "eval_steps_per_second": 14.285,
+      "step": 856
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 4.760202407836914,
+      "learning_rate": 0.0003586335339004407,
+      "loss": 0.4614,
+      "step": 1070
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7340363210310487,
+      "eval_f1": 0.4733178654292344,
+      "eval_loss": 0.4721404016017914,
+      "eval_mcc": 0.35044282313920905,
+      "eval_precision": 0.6962457337883959,
+      "eval_recall": 0.3585237258347979,
+      "eval_runtime": 3.1258,
+      "eval_samples_per_second": 546.093,
+      "eval_steps_per_second": 17.275,
+      "step": 1070
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 2.5421228408813477,
+      "learning_rate": 0.0003347246316404113,
+      "loss": 0.4617,
+      "step": 1284
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.7439953134153485,
+      "eval_f1": 0.5346112886048987,
+      "eval_loss": 0.4643152058124542,
+      "eval_mcc": 0.38505007336259955,
+      "eval_precision": 0.6783783783783783,
+      "eval_recall": 0.44112478031634444,
+      "eval_runtime": 3.278,
+      "eval_samples_per_second": 520.745,
+      "eval_steps_per_second": 16.473,
+      "step": 1284
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 4280,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 3148653986640.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.8544594605661776,
+    "learning_rate": 0.0004781780452005876,
+    "num_train_epochs": 20,
+    "temperature": 15
+  }
+}

run-14/checkpoint-1284/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d21d17ecb931e756a0d7102c83f58b746c9a153fe99764512b52a17889afc5fc
+size 5048

run-14/checkpoint-1284/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-14/checkpoint-1498/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-14/checkpoint-1498/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5c83ba341df9345237126c6df1e0016197aa480321ad5838dd4e9e38979a787
+size 17549312

run-14/checkpoint-1498/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed69720deef187c386bf14b782480574cbf526b0ba24f14e1cb6c4f56b260680
+size 35123898

run-14/checkpoint-1498/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ec7baa77763623ab6f5c0a3afb24b20f15950a2841a41419e9c31b1269a80a7
+size 14308

run-14/checkpoint-1498/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe765b62f628ab006f73f78d810024e12e2ce029306993c0a9c99c8d0b3ff67f
+size 1064

run-14/checkpoint-1498/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-14/checkpoint-1498/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-14/checkpoint-1498/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-14/checkpoint-1498/trainer_state.json ADDED Viewed

	@@ -0,0 +1,166 @@

+{
+  "best_metric": 0.7439953134153485,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-14/checkpoint-1284",
+  "epoch": 7.0,
+  "eval_steps": 500,
+  "global_step": 1498,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 4.230797290802002,
+      "learning_rate": 0.0004542691429405582,
+      "loss": 0.5244,
+      "step": 214
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7065026362038664,
+      "eval_f1": 0.3634053367217281,
+      "eval_loss": 0.49707961082458496,
+      "eval_mcc": 0.26187368637682734,
+      "eval_precision": 0.6559633027522935,
+      "eval_recall": 0.2513181019332162,
+      "eval_runtime": 3.1642,
+      "eval_samples_per_second": 539.474,
+      "eval_steps_per_second": 17.066,
+      "step": 214
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.7037988901138306,
+      "learning_rate": 0.0004303602406805288,
+      "loss": 0.4856,
+      "step": 428
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7047451669595782,
+      "eval_f1": 0.5019762845849802,
+      "eval_loss": 0.4853743612766266,
+      "eval_mcc": 0.3014395863411175,
+      "eval_precision": 0.5733634311512416,
+      "eval_recall": 0.44639718804920914,
+      "eval_runtime": 3.2868,
+      "eval_samples_per_second": 519.356,
+      "eval_steps_per_second": 16.43,
+      "step": 428
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 1.7830451726913452,
+      "learning_rate": 0.0004064513384204994,
+      "loss": 0.4758,
+      "step": 642
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7018160515524312,
+      "eval_f1": 0.25909752547307136,
+      "eval_loss": 0.4858837425708771,
+      "eval_mcc": 0.24331468344161114,
+      "eval_precision": 0.7542372881355932,
+      "eval_recall": 0.15641476274165203,
+      "eval_runtime": 3.1648,
+      "eval_samples_per_second": 539.369,
+      "eval_steps_per_second": 17.063,
+      "step": 642
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 1.6830062866210938,
+      "learning_rate": 0.0003825424361604701,
+      "loss": 0.4724,
+      "step": 856
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7275922671353251,
+      "eval_f1": 0.4015444015444016,
+      "eval_loss": 0.47459593415260315,
+      "eval_mcc": 0.32925006262083517,
+      "eval_precision": 0.75,
+      "eval_recall": 0.2741652021089631,
+      "eval_runtime": 3.7803,
+      "eval_samples_per_second": 451.553,
+      "eval_steps_per_second": 14.285,
+      "step": 856
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 4.760202407836914,
+      "learning_rate": 0.0003586335339004407,
+      "loss": 0.4614,
+      "step": 1070
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7340363210310487,
+      "eval_f1": 0.4733178654292344,
+      "eval_loss": 0.4721404016017914,
+      "eval_mcc": 0.35044282313920905,
+      "eval_precision": 0.6962457337883959,
+      "eval_recall": 0.3585237258347979,
+      "eval_runtime": 3.1258,
+      "eval_samples_per_second": 546.093,
+      "eval_steps_per_second": 17.275,
+      "step": 1070
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 2.5421228408813477,
+      "learning_rate": 0.0003347246316404113,
+      "loss": 0.4617,
+      "step": 1284
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.7439953134153485,
+      "eval_f1": 0.5346112886048987,
+      "eval_loss": 0.4643152058124542,
+      "eval_mcc": 0.38505007336259955,
+      "eval_precision": 0.6783783783783783,
+      "eval_recall": 0.44112478031634444,
+      "eval_runtime": 3.278,
+      "eval_samples_per_second": 520.745,
+      "eval_steps_per_second": 16.473,
+      "step": 1284
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 3.2574965953826904,
+      "learning_rate": 0.0003108157293803819,
+      "loss": 0.4555,
+      "step": 1498
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.7416520210896309,
+      "eval_f1": 0.4562268803945746,
+      "eval_loss": 0.46802204847335815,
+      "eval_mcc": 0.3717088012670463,
+      "eval_precision": 0.7644628099173554,
+      "eval_recall": 0.3251318101933216,
+      "eval_runtime": 3.1628,
+      "eval_samples_per_second": 539.712,
+      "eval_steps_per_second": 17.073,
+      "step": 1498
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 4280,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 3673429651080.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.8544594605661776,
+    "learning_rate": 0.0004781780452005876,
+    "num_train_epochs": 20,
+    "temperature": 15
+  }
+}

run-14/checkpoint-1498/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d21d17ecb931e756a0d7102c83f58b746c9a153fe99764512b52a17889afc5fc
+size 5048

run-14/checkpoint-1498/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-16/checkpoint-3210/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-16/checkpoint-3210/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1794227aab6c8d418f3822b89efba6e0d1e03751a74dfc9440e762b28ce224e7
+size 17549312

run-16/checkpoint-3210/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f067f7bb8c4d166c28277e8ed0c02f05d819b0e2d6048bac11598bfbb0417b2
+size 35123898

run-16/checkpoint-3210/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d81d96bfaf26d44cf1a0c72fb1dd07a53054407225c96066b3cf891d113419f6
+size 14308

run-16/checkpoint-3210/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16867dee2a8ccb217940321e4e2b4d5bc2422ef1bd429064848e1bcd894f0c52
+size 1064

run-16/checkpoint-3210/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-16/checkpoint-3210/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-16/checkpoint-3210/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-16/checkpoint-3210/trainer_state.json ADDED Viewed

	@@ -0,0 +1,326 @@

+{
+  "best_metric": 0.7955477445811365,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-16/checkpoint-3210",
+  "epoch": 15.0,
+  "eval_steps": 500,
+  "global_step": 3210,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 7.164041519165039,
+      "learning_rate": 0.0004107110800529193,
+      "loss": 0.5976,
+      "step": 214
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7182190978324546,
+      "eval_f1": 0.49208025343189016,
+      "eval_loss": 0.5573095679283142,
+      "eval_mcc": 0.32024447377810733,
+      "eval_precision": 0.6164021164021164,
+      "eval_recall": 0.4094903339191564,
+      "eval_runtime": 3.1533,
+      "eval_samples_per_second": 541.343,
+      "eval_steps_per_second": 17.125,
+      "step": 214
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 2.810741424560547,
+      "learning_rate": 0.00038909470741855514,
+      "loss": 0.535,
+      "step": 428
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7299355594610427,
+      "eval_f1": 0.5719591457753018,
+      "eval_loss": 0.5309674143791199,
+      "eval_mcc": 0.3769093274057024,
+      "eval_precision": 0.6062992125984252,
+      "eval_recall": 0.5413005272407733,
+      "eval_runtime": 3.2455,
+      "eval_samples_per_second": 525.953,
+      "eval_steps_per_second": 16.638,
+      "step": 428
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 2.5110363960266113,
+      "learning_rate": 0.00036747833478419095,
+      "loss": 0.51,
+      "step": 642
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7527826596367897,
+      "eval_f1": 0.5290178571428571,
+      "eval_loss": 0.5084466934204102,
+      "eval_mcc": 0.4042060476032326,
+      "eval_precision": 0.7247706422018348,
+      "eval_recall": 0.4165202108963093,
+      "eval_runtime": 3.1369,
+      "eval_samples_per_second": 544.167,
+      "eval_steps_per_second": 17.214,
+      "step": 642
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 2.1826329231262207,
+      "learning_rate": 0.0003458619621498268,
+      "loss": 0.4995,
+      "step": 856
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7451669595782073,
+      "eval_f1": 0.49241540256709454,
+      "eval_loss": 0.5046694278717041,
+      "eval_mcc": 0.38160728386386483,
+      "eval_precision": 0.7326388888888888,
+      "eval_recall": 0.37082601054481545,
+      "eval_runtime": 3.3202,
+      "eval_samples_per_second": 514.123,
+      "eval_steps_per_second": 16.264,
+      "step": 856
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 6.0804123878479,
+      "learning_rate": 0.0003242455895154626,
+      "loss": 0.4853,
+      "step": 1070
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7574692442882249,
+      "eval_f1": 0.6393728222996515,
+      "eval_loss": 0.4947313964366913,
+      "eval_mcc": 0.45673224487908876,
+      "eval_precision": 0.6338514680483592,
+      "eval_recall": 0.6449912126537786,
+      "eval_runtime": 3.1788,
+      "eval_samples_per_second": 536.989,
+      "eval_steps_per_second": 16.987,
+      "step": 1070
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 2.1514229774475098,
+      "learning_rate": 0.0003026292168810984,
+      "loss": 0.4724,
+      "step": 1284
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.7650849443468073,
+      "eval_f1": 0.6598812553011025,
+      "eval_loss": 0.477894127368927,
+      "eval_mcc": 0.4814730312998762,
+      "eval_precision": 0.6377049180327868,
+      "eval_recall": 0.6836555360281195,
+      "eval_runtime": 3.2099,
+      "eval_samples_per_second": 531.785,
+      "eval_steps_per_second": 16.823,
+      "step": 1284
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 5.599643230438232,
+      "learning_rate": 0.0002810128442467343,
+      "loss": 0.46,
+      "step": 1498
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.773286467486819,
+      "eval_f1": 0.5798045602605862,
+      "eval_loss": 0.47905173897743225,
+      "eval_mcc": 0.45971678817188244,
+      "eval_precision": 0.7585227272727273,
+      "eval_recall": 0.46924428822495606,
+      "eval_runtime": 3.1625,
+      "eval_samples_per_second": 539.761,
+      "eval_steps_per_second": 17.075,
+      "step": 1498
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 3.2664639949798584,
+      "learning_rate": 0.0002593964716123701,
+      "loss": 0.4428,
+      "step": 1712
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7885178676039836,
+      "eval_f1": 0.6386386386386386,
+      "eval_loss": 0.4652605950832367,
+      "eval_mcc": 0.5028818263800968,
+      "eval_precision": 0.7418604651162791,
+      "eval_recall": 0.5606326889279437,
+      "eval_runtime": 3.2551,
+      "eval_samples_per_second": 524.404,
+      "eval_steps_per_second": 16.589,
+      "step": 1712
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 5.06269645690918,
+      "learning_rate": 0.00023778009897800593,
+      "loss": 0.4442,
+      "step": 1926
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.7773872290568249,
+      "eval_f1": 0.6008403361344538,
+      "eval_loss": 0.47534701228141785,
+      "eval_mcc": 0.4716667178372095,
+      "eval_precision": 0.7467362924281984,
+      "eval_recall": 0.5026362038664324,
+      "eval_runtime": 3.1553,
+      "eval_samples_per_second": 541.002,
+      "eval_steps_per_second": 17.114,
+      "step": 1926
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 5.0700459480285645,
+      "learning_rate": 0.00021616372634364174,
+      "loss": 0.4307,
+      "step": 2140
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.7838312829525483,
+      "eval_f1": 0.6666666666666666,
+      "eval_loss": 0.47036686539649963,
+      "eval_mcc": 0.5073397319926002,
+      "eval_precision": 0.6858736059479554,
+      "eval_recall": 0.648506151142355,
+      "eval_runtime": 3.3854,
+      "eval_samples_per_second": 504.231,
+      "eval_steps_per_second": 15.951,
+      "step": 2140
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 6.991399765014648,
+      "learning_rate": 0.00019454735370927757,
+      "loss": 0.4243,
+      "step": 2354
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.7867603983596954,
+      "eval_f1": 0.636,
+      "eval_loss": 0.4695989191532135,
+      "eval_mcc": 0.49868088180967785,
+      "eval_precision": 0.7378190255220418,
+      "eval_recall": 0.5588752196836555,
+      "eval_runtime": 3.1405,
+      "eval_samples_per_second": 543.539,
+      "eval_steps_per_second": 17.195,
+      "step": 2354
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 5.208732604980469,
+      "learning_rate": 0.0001729309810749134,
+      "loss": 0.4198,
+      "step": 2568
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.7896895137668424,
+      "eval_f1": 0.666046511627907,
+      "eval_loss": 0.45460793375968933,
+      "eval_mcc": 0.5152127188733497,
+      "eval_precision": 0.7075098814229249,
+      "eval_recall": 0.6291739894551845,
+      "eval_runtime": 3.8567,
+      "eval_samples_per_second": 442.612,
+      "eval_steps_per_second": 14.002,
+      "step": 2568
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 16.56888771057129,
+      "learning_rate": 0.0001513146084405492,
+      "loss": 0.4199,
+      "step": 2782
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.7908611599297012,
+      "eval_f1": 0.6641580432737535,
+      "eval_loss": 0.46026891469955444,
+      "eval_mcc": 0.5161067927608803,
+      "eval_precision": 0.7145748987854251,
+      "eval_recall": 0.6203866432337434,
+      "eval_runtime": 3.1632,
+      "eval_samples_per_second": 539.639,
+      "eval_steps_per_second": 17.071,
+      "step": 2782
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 6.45969820022583,
+      "learning_rate": 0.00012969823580618505,
+      "loss": 0.4135,
+      "step": 2996
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.789103690685413,
+      "eval_f1": 0.6622889305816135,
+      "eval_loss": 0.4559510350227356,
+      "eval_mcc": 0.5124487501229456,
+      "eval_precision": 0.710261569416499,
+      "eval_recall": 0.6203866432337434,
+      "eval_runtime": 3.2281,
+      "eval_samples_per_second": 528.794,
+      "eval_steps_per_second": 16.728,
+      "step": 2996
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 1.7556620836257935,
+      "learning_rate": 0.00010808186317182087,
+      "loss": 0.4066,
+      "step": 3210
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.7955477445811365,
+      "eval_f1": 0.6666666666666667,
+      "eval_loss": 0.4586973190307617,
+      "eval_mcc": 0.5249372343364972,
+      "eval_precision": 0.7301255230125523,
+      "eval_recall": 0.6133567662565905,
+      "eval_runtime": 3.1701,
+      "eval_samples_per_second": 538.473,
+      "eval_steps_per_second": 17.034,
+      "step": 3210
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 4280,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 7871634966600.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.9950627760257441,
+    "learning_rate": 0.0004323274526872835,
+    "num_train_epochs": 20,
+    "temperature": 49
+  }
+}

run-16/checkpoint-3210/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff195ba85c606fb318a57c554ce7a249220632fcc5b586bd0765e5c39f5b3318
+size 5048

run-16/checkpoint-3210/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-16/checkpoint-4280/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-16/checkpoint-4280/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3add293f38ca0b80637e05887ba0d309c2237445c6827c13264b78c6919ebd15
+size 17549312

run-16/checkpoint-4280/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ec8c06b32062d5b576876e101466e010adc48d50f73dfee20779cc7303ebca9
+size 35123898

run-16/checkpoint-4280/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fedd0769bd89f675594ef0b80df3dcdb1022bf556ed34e9977e3b0698bd0ffa6
+size 14308

run-16/checkpoint-4280/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64b21394f492680851e1ec282e48b1372dc0b0c4ef3b0510796d5ab835cf6453
+size 1064

run-16/checkpoint-4280/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-16/checkpoint-4280/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-16/checkpoint-4280/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}