xuancoblab2023 commited on Mar 14, 2024

Commit

def0b1d

verified ·

1 Parent(s): 0de5f20

Training in progress, epoch 1

Browse files

Files changed (35) hide show

logs/events.out.tfevents.1710425174.4cb0d5d7fb51.369.0 +3 -0
logs/events.out.tfevents.1710425892.4cb0d5d7fb51.5918.0 +3 -0
logs/events.out.tfevents.1710434095.4cb0d5d7fb51.5918.1 +3 -0
model.safetensors +1 -1
run-0/checkpoint-1782/config.json +34 -0
run-0/checkpoint-1782/model.safetensors +3 -0
run-0/checkpoint-1782/optimizer.pt +3 -0
run-0/checkpoint-1782/rng_state.pth +3 -0
run-0/checkpoint-1782/scheduler.pt +3 -0
run-0/checkpoint-1782/special_tokens_map.json +7 -0
run-0/checkpoint-1782/tokenizer.json +0 -0
run-0/checkpoint-1782/tokenizer_config.json +57 -0
run-0/checkpoint-1782/trainer_state.json +122 -0
run-0/checkpoint-1782/training_args.bin +3 -0
run-0/checkpoint-1782/vocab.txt +0 -0
run-0/checkpoint-2079/config.json +34 -0
run-0/checkpoint-2079/model.safetensors +3 -0
run-0/checkpoint-2079/optimizer.pt +3 -0
run-0/checkpoint-2079/rng_state.pth +3 -0
run-0/checkpoint-2079/scheduler.pt +3 -0
run-0/checkpoint-2079/special_tokens_map.json +7 -0
run-0/checkpoint-2079/tokenizer.json +0 -0
run-0/checkpoint-2079/tokenizer_config.json +57 -0
run-0/checkpoint-2079/trainer_state.json +138 -0
run-0/checkpoint-2079/training_args.bin +3 -0
run-0/checkpoint-2079/vocab.txt +0 -0
run-1/checkpoint-297/model.safetensors +1 -1
run-1/checkpoint-297/optimizer.pt +1 -1
run-1/checkpoint-297/rng_state.pth +1 -1
run-1/checkpoint-297/scheduler.pt +1 -1
run-1/checkpoint-297/tokenizer.json +1 -1
run-1/checkpoint-297/trainer_state.json +19 -61
run-1/checkpoint-297/training_args.bin +2 -2
tokenizer.json +1 -1
training_args.bin +1 -1

logs/events.out.tfevents.1710425174.4cb0d5d7fb51.369.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e6774434efae0697cfede9134a6783675bec591bdaf77fc9a7098b8aa51c03f4
+size 4184

logs/events.out.tfevents.1710425892.4cb0d5d7fb51.5918.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a7320cc2f1c05909e739c57b342aa3a7226dd8af56e11e6d4ee9daffbfe8215
+size 8736

logs/events.out.tfevents.1710434095.4cb0d5d7fb51.5918.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:026d7c7b4ff6d5b241f21c4d927c92019c5434ea2c4d35a0321fdafed4d6dee5
+size 5178

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d37c360175c163911096dea965479fbd6880c91653c4ee3ac72c0beb708fd5da
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf78f191f8ec19931f9cd904378746a6b65295ee17e7e52a6a382fd0d4c8a6dd
 size 17549312

run-0/checkpoint-1782/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-0/checkpoint-1782/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0bcd66c4c990c188df0c7f38f13626d4e1b07d8ea5c83b02ae9479a6de6c6a72
+size 17549312

run-0/checkpoint-1782/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b04dc1645677358f2f419f5a53d294ca59d04a32e753cea261c45d7d776d9dd2
+size 35122746

run-0/checkpoint-1782/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee696d9318370c8d16ff7888fb5ee35c97fd7bd51ddd72203fc319df161c4dd1
+size 14054

run-0/checkpoint-1782/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c66fa3be451e42a6a44a297a37139cd92903b66779648a5144184672ea1a354a
+size 1064

run-0/checkpoint-1782/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-1782/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-0/checkpoint-1782/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-1782/trainer_state.json ADDED Viewed

	@@ -0,0 +1,122 @@

+{
+  "best_metric": 0.5247524752475248,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-0/checkpoint-1782",
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 1782,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.8027682304382324,
+      "learning_rate": 0.0002796956441517031,
+      "loss": 0.2656,
+      "step": 297
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5128712871287129,
+      "eval_loss": 0.27001720666885376,
+      "eval_runtime": 55.7019,
+      "eval_samples_per_second": 9.066,
+      "eval_steps_per_second": 0.287,
+      "step": 297
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.2776716649532318,
+      "learning_rate": 0.00023307970345975263,
+      "loss": 0.2582,
+      "step": 594
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5108910891089109,
+      "eval_loss": 0.25422945618629456,
+      "eval_runtime": 56.0184,
+      "eval_samples_per_second": 9.015,
+      "eval_steps_per_second": 0.286,
+      "step": 594
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.49428918957710266,
+      "learning_rate": 0.0001864637627678021,
+      "loss": 0.255,
+      "step": 891
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.5168316831683168,
+      "eval_loss": 0.2529114782810211,
+      "eval_runtime": 56.4466,
+      "eval_samples_per_second": 8.947,
+      "eval_steps_per_second": 0.283,
+      "step": 891
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.3203761875629425,
+      "learning_rate": 0.00013984782207585156,
+      "loss": 0.2523,
+      "step": 1188
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5148514851485149,
+      "eval_loss": 0.2504001557826996,
+      "eval_runtime": 56.4336,
+      "eval_samples_per_second": 8.949,
+      "eval_steps_per_second": 0.284,
+      "step": 1188
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.3831195831298828,
+      "learning_rate": 9.323188138390105e-05,
+      "loss": 0.2499,
+      "step": 1485
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.5188118811881188,
+      "eval_loss": 0.24836017191410065,
+      "eval_runtime": 58.52,
+      "eval_samples_per_second": 8.63,
+      "eval_steps_per_second": 0.273,
+      "step": 1485
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.5231035947799683,
+      "learning_rate": 4.661594069195052e-05,
+      "loss": 0.2486,
+      "step": 1782
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.5247524752475248,
+      "eval_loss": 0.24778248369693756,
+      "eval_runtime": 56.1683,
+      "eval_samples_per_second": 8.991,
+      "eval_steps_per_second": 0.285,
+      "step": 1782
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2079,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
+  "save_steps": 500,
+  "total_flos": 4667059698840.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.3139802761523254,
+    "learning_rate": 0.0003263115848436537,
+    "num_train_epochs": 7,
+    "temperature": 8
+  }
+}

run-0/checkpoint-1782/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66890374d28b0a8287d00c772a9c1c12834f9338c43f525c95c7228993d7f197
+size 4984

run-0/checkpoint-1782/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-0/checkpoint-2079/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-0/checkpoint-2079/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3098a15679860f575e848c5a7576e11b45e65bf521cd91a6fbe675d4ace61ca9
+size 17549312

run-0/checkpoint-2079/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ccbaa42e566d4f27196035bf7ee60a779e9fede03183ac7d442dfd5d20ef67e
+size 35122746

run-0/checkpoint-2079/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ddf4483b0cc001197871d638833a4a3bbdd0c0a8ea4710051f83b263dbe74c2
+size 14054

run-0/checkpoint-2079/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fba327764f45428e92d040851d74cba465a132e33a42f5628421e8f28e93207
+size 1064

run-0/checkpoint-2079/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-2079/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-0/checkpoint-2079/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-2079/trainer_state.json ADDED Viewed

	@@ -0,0 +1,138 @@

+{
+  "best_metric": 0.5247524752475248,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-0/checkpoint-1782",
+  "epoch": 7.0,
+  "eval_steps": 500,
+  "global_step": 2079,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.8027682304382324,
+      "learning_rate": 0.0002796956441517031,
+      "loss": 0.2656,
+      "step": 297
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5128712871287129,
+      "eval_loss": 0.27001720666885376,
+      "eval_runtime": 55.7019,
+      "eval_samples_per_second": 9.066,
+      "eval_steps_per_second": 0.287,
+      "step": 297
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.2776716649532318,
+      "learning_rate": 0.00023307970345975263,
+      "loss": 0.2582,
+      "step": 594
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5108910891089109,
+      "eval_loss": 0.25422945618629456,
+      "eval_runtime": 56.0184,
+      "eval_samples_per_second": 9.015,
+      "eval_steps_per_second": 0.286,
+      "step": 594
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.49428918957710266,
+      "learning_rate": 0.0001864637627678021,
+      "loss": 0.255,
+      "step": 891
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.5168316831683168,
+      "eval_loss": 0.2529114782810211,
+      "eval_runtime": 56.4466,
+      "eval_samples_per_second": 8.947,
+      "eval_steps_per_second": 0.283,
+      "step": 891
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.3203761875629425,
+      "learning_rate": 0.00013984782207585156,
+      "loss": 0.2523,
+      "step": 1188
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5148514851485149,
+      "eval_loss": 0.2504001557826996,
+      "eval_runtime": 56.4336,
+      "eval_samples_per_second": 8.949,
+      "eval_steps_per_second": 0.284,
+      "step": 1188
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.3831195831298828,
+      "learning_rate": 9.323188138390105e-05,
+      "loss": 0.2499,
+      "step": 1485
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.5188118811881188,
+      "eval_loss": 0.24836017191410065,
+      "eval_runtime": 58.52,
+      "eval_samples_per_second": 8.63,
+      "eval_steps_per_second": 0.273,
+      "step": 1485
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.5231035947799683,
+      "learning_rate": 4.661594069195052e-05,
+      "loss": 0.2486,
+      "step": 1782
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.5247524752475248,
+      "eval_loss": 0.24778248369693756,
+      "eval_runtime": 56.1683,
+      "eval_samples_per_second": 8.991,
+      "eval_steps_per_second": 0.285,
+      "step": 1782
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.4036513566970825,
+      "learning_rate": 0.0,
+      "loss": 0.2466,
+      "step": 2079
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.5247524752475248,
+      "eval_loss": 0.24736006557941437,
+      "eval_runtime": 54.9354,
+      "eval_samples_per_second": 9.193,
+      "eval_steps_per_second": 0.291,
+      "step": 2079
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2079,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
+  "save_steps": 500,
+  "total_flos": 5444902981980.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.3139802761523254,
+    "learning_rate": 0.0003263115848436537,
+    "num_train_epochs": 7,
+    "temperature": 8
+  }
+}

run-0/checkpoint-2079/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66890374d28b0a8287d00c772a9c1c12834f9338c43f525c95c7228993d7f197
+size 4984

run-0/checkpoint-2079/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-1/checkpoint-297/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea0112e85d86eb2b488ac7806696395cdc2d93066660543d5a796d9cb413f740
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf78f191f8ec19931f9cd904378746a6b65295ee17e7e52a6a382fd0d4c8a6dd
 size 17549312

run-1/checkpoint-297/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05e6e32e811aa3cd3523492b4f2973fd30aa324f91218a2a2ae62fbe22606b61
 size 35122746

 version https://git-lfs.github.com/spec/v1
+oid sha256:acd6c9baeefb8f102b3b39c4118c7136ac58f455f69bd550edb68349840eb054
 size 35122746

run-1/checkpoint-297/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1636667e228312c6c014885f930bd4ecaadaec1e01e8acfbfaaae3bd47d2d61
 size 14054

 version https://git-lfs.github.com/spec/v1
+oid sha256:f414017d19e8a66d09e6a16c0bca909eff6c9e5541f54da3f0dba2607378e04d
 size 14054

run-1/checkpoint-297/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:886375653aaeba7f27a6b77deb23f8953f50b87b17eec91bd8fec82461326ad2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:883a13d0ce4b22682af6eb4d99c939f3ce2e855ed8d1ade27c75e0163ba553ff
 size 1064

run-1/checkpoint-297/tokenizer.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "version": "1.0",
   "truncation": {
     "direction": "Right",
-    "max_length": 31,
     "strategy": "LongestFirst",
     "stride": 0
   },

   "version": "1.0",
   "truncation": {
     "direction": "Right",
+    "max_length": 33,
     "strategy": "LongestFirst",
     "stride": 0
   },

run-1/checkpoint-297/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.7886497064579256,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-297",
-  "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 297,
   "is_hyper_param_search": true,
@@ -10,75 +10,33 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.8574622273445129,
-      "learning_rate": 0.0005047460143242413,
-      "loss": 0.4026,
-      "step": 99
-    },
-    {
-      "epoch": 1.0,
-      "eval_accuracy": 0.5684931506849316,
-      "eval_f1": 0.28985507246376807,
-      "eval_loss": 0.3736521005630493,
-      "eval_precision": 0.8181818181818182,
-      "eval_recall": 0.1761252446183953,
-      "eval_runtime": 30.2349,
-      "eval_samples_per_second": 33.802,
-      "eval_steps_per_second": 1.058,
-      "step": 99
-    },
-    {
-      "epoch": 2.0,
-      "grad_norm": 1.298500657081604,
-      "learning_rate": 0.00025237300716212063,
-      "loss": 0.3707,
-      "step": 198
-    },
-    {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7602739726027398,
-      "eval_f1": 0.7231638418079097,
-      "eval_loss": 0.3502894341945648,
-      "eval_precision": 0.8556149732620321,
-      "eval_recall": 0.6262230919765166,
-      "eval_runtime": 30.2651,
-      "eval_samples_per_second": 33.768,
-      "eval_steps_per_second": 1.057,
-      "step": 198
-    },
-    {
-      "epoch": 3.0,
-      "grad_norm": 1.427898645401001,
-      "learning_rate": 0.0,
-      "loss": 0.3525,
       "step": 297
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.7886497064579256,
-      "eval_f1": 0.7782340862422998,
-      "eval_loss": 0.3467503488063812,
-      "eval_precision": 0.8185745140388769,
-      "eval_recall": 0.7416829745596869,
-      "eval_runtime": 29.9113,
-      "eval_samples_per_second": 34.168,
-      "eval_steps_per_second": 1.07,
       "step": 297
     }
   ],
   "logging_steps": 500,
-  "max_steps": 297,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 707085591840.0,
-  "train_batch_size": 31,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.571532167699631,
-    "learning_rate": 0.000757119021486362,
-    "num_train_epochs": 3,
-    "per_device_train_batch_size": 31,
-    "temperature": 19
   }
 }

 {
+  "best_metric": 0.5841584158415841,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-297",
+  "epoch": 1.0,
   "eval_steps": 500,
   "global_step": 297,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 1.3426679372787476,
+      "learning_rate": 0.0003560526201910554,
+      "loss": 0.6371,
       "step": 297
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5841584158415841,
+      "eval_loss": 0.637409508228302,
+      "eval_runtime": 56.7978,
+      "eval_samples_per_second": 8.891,
+      "eval_steps_per_second": 0.282,
       "step": 297
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1188,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
   "save_steps": 500,
+  "total_flos": 777843283140.0,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.900582717199523,
+    "learning_rate": 0.0004747368269214072,
+    "num_train_epochs": 4,
+    "temperature": 18
   }
 }

run-1/checkpoint-297/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9a22962199e8db5aed7f91cc38b31e6e9016a67071067e10647b0bbadfffa51
-size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6f636dbab8b5e516bcd85051f9f0732a28727ed1675f1d1f3076c7baf2be402
+size 4984

tokenizer.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "version": "1.0",
   "truncation": {
     "direction": "Right",
-    "max_length": 31,
     "strategy": "LongestFirst",
     "stride": 0
   },

   "version": "1.0",
   "truncation": {
     "direction": "Right",
+    "max_length": 33,
     "strategy": "LongestFirst",
     "stride": 0
   },

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80dc70ad7da501d435234fbefa375c80fa3a6718b03d738d8b00028f0713e645
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6f636dbab8b5e516bcd85051f9f0732a28727ed1675f1d1f3076c7baf2be402
 size 4984