xuancoblab2023 commited on Mar 5, 2024

Commit

4994314

verified ·

1 Parent(s): 92b0bf9

Training in progress, epoch 1

Browse files

Files changed (37) hide show

logs/events.out.tfevents.1709617962.404ecd1cf399.26000.7 +2 -2
logs/events.out.tfevents.1709618554.404ecd1cf399.26000.8 +3 -0
model.safetensors +1 -1
run-1/checkpoint-384/config.json +34 -0
run-1/checkpoint-384/model.safetensors +3 -0
run-1/checkpoint-384/optimizer.pt +3 -0
run-1/checkpoint-384/rng_state.pth +3 -0
run-1/checkpoint-384/scheduler.pt +3 -0
run-1/checkpoint-384/special_tokens_map.json +7 -0
run-1/checkpoint-384/tokenizer.json +0 -0
run-1/checkpoint-384/tokenizer_config.json +57 -0
run-1/checkpoint-384/trainer_state.json +102 -0
run-1/checkpoint-384/training_args.bin +3 -0
run-1/checkpoint-384/vocab.txt +0 -0
run-1/checkpoint-480/config.json +34 -0
run-1/checkpoint-480/model.safetensors +3 -0
run-1/checkpoint-480/optimizer.pt +3 -0
run-1/checkpoint-480/rng_state.pth +3 -0
run-1/checkpoint-480/scheduler.pt +3 -0
run-1/checkpoint-480/special_tokens_map.json +7 -0
run-1/checkpoint-480/tokenizer.json +0 -0
run-1/checkpoint-480/tokenizer_config.json +57 -0
run-1/checkpoint-480/trainer_state.json +121 -0
run-1/checkpoint-480/training_args.bin +3 -0
run-1/checkpoint-480/vocab.txt +0 -0
run-2/checkpoint-96/config.json +34 -0
run-2/checkpoint-96/model.safetensors +3 -0
run-2/checkpoint-96/optimizer.pt +3 -0
run-2/checkpoint-96/rng_state.pth +3 -0
run-2/checkpoint-96/scheduler.pt +3 -0
run-2/checkpoint-96/special_tokens_map.json +7 -0
run-2/checkpoint-96/tokenizer.json +0 -0
run-2/checkpoint-96/tokenizer_config.json +57 -0
run-2/checkpoint-96/trainer_state.json +45 -0
run-2/checkpoint-96/training_args.bin +3 -0
run-2/checkpoint-96/vocab.txt +0 -0
training_args.bin +1 -1

logs/events.out.tfevents.1709617962.404ecd1cf399.26000.7 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83c010591937d098f05e0b1960add24e8e6df5d090fc6659f34e6895e011bb7c
-size 5998

 version https://git-lfs.github.com/spec/v1
+oid sha256:63a1eab9e4171fae7b27211f8b79337498355e38ea8c2576d80c4e1c93098eab
+size 8401

logs/events.out.tfevents.1709618554.404ecd1cf399.26000.8 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ed1240ba3a3fa092df3a66529d65df5df5563475335a76c17c7c70e2ab80207
+size 5315

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8190e7a62027cce295082d46e30653021a51c5c5bb818e91fd983f5e1473ef8d
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:13d9e3c5574fdd7a017d1ca3a56705f207b41a4f67b51080f14f316154309de5
 size 17549312

run-1/checkpoint-384/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-1/checkpoint-384/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:599ce20d16ae858c6ea5c4c6394afae3c6a54d089921643934771b92efef5da9
+size 17549312

run-1/checkpoint-384/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff83fffdf6e9eb36130cc77fe371a04494d2b7aa5a6970c1d7d60ca3edded5c6
+size 35122746

run-1/checkpoint-384/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45b1fc07ed8b121716021ec87c686f1cd9c3b89c82ea08a6a0792d47a39077c9
+size 14054

run-1/checkpoint-384/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec21489740ab058e708d6188bdd979b6f04f1e5c8145a4c2c7342f35397725ee
+size 1064

run-1/checkpoint-384/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-1/checkpoint-384/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-1/checkpoint-384/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-1/checkpoint-384/trainer_state.json ADDED Viewed

	@@ -0,0 +1,102 @@

+{
+  "best_metric": 0.8199608610567515,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-288",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 384,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.4932310581207275,
+      "learning_rate": 0.00022974033046670533,
+      "loss": 0.4667,
+      "step": 96
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7651663405088063,
+      "eval_f1": 0.7701149425287357,
+      "eval_loss": 0.4088786244392395,
+      "eval_precision": 0.7542213883677298,
+      "eval_recall": 0.786692759295499,
+      "eval_runtime": 30.971,
+      "eval_samples_per_second": 32.999,
+      "eval_steps_per_second": 1.033,
+      "step": 96
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 2.3421308994293213,
+      "learning_rate": 0.00017230524785002898,
+      "loss": 0.4108,
+      "step": 192
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8052837573385518,
+      "eval_f1": 0.8202348690153567,
+      "eval_loss": 0.39227691292762756,
+      "eval_precision": 0.761744966442953,
+      "eval_recall": 0.8884540117416829,
+      "eval_runtime": 30.7242,
+      "eval_samples_per_second": 33.264,
+      "eval_steps_per_second": 1.042,
+      "step": 192
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 2.60581374168396,
+      "learning_rate": 0.00011487016523335267,
+      "loss": 0.3914,
+      "step": 288
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8199608610567515,
+      "eval_f1": 0.8318098720292504,
+      "eval_loss": 0.38357415795326233,
+      "eval_precision": 0.7804459691252144,
+      "eval_recall": 0.8904109589041096,
+      "eval_runtime": 32.3837,
+      "eval_samples_per_second": 31.559,
+      "eval_steps_per_second": 0.988,
+      "step": 288
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 3.155740737915039,
+      "learning_rate": 5.743508261667633e-05,
+      "loss": 0.3802,
+      "step": 384
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8160469667318982,
+      "eval_f1": 0.8160469667318982,
+      "eval_loss": 0.37758293747901917,
+      "eval_precision": 0.8160469667318982,
+      "eval_recall": 0.8160469667318982,
+      "eval_runtime": 30.8515,
+      "eval_samples_per_second": 33.126,
+      "eval_steps_per_second": 1.037,
+      "step": 384
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 480,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 942780789120.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.6818846524061118,
+    "learning_rate": 0.00028717541308338166,
+    "num_train_epochs": 5,
+    "temperature": 29
+  }
+}

run-1/checkpoint-384/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:793b34e056c09ac6895e4854810a5a38ad5f7e4ea7bfcdaf2571ad59272936ff
+size 4920

run-1/checkpoint-384/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-1/checkpoint-480/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-1/checkpoint-480/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:847df229a7ca0cb4095cbd280d7c3c672c7e4ee9114fc1bc359491abd2ab3ffb
+size 17549312

run-1/checkpoint-480/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f70ab8c31ca18dfb957c1ba52f19a90faf43d594db85a5dde58bb6f884e93a5
+size 35122746

run-1/checkpoint-480/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d93f4cfe67413cd27374342b3b9f13806d5fb593a9dc59106a8b24dedb590a8
+size 14054

run-1/checkpoint-480/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9df0e59ca0915eb128e8de1597a625689a2ef7a8993192bedb8693c0c8a3fdb2
+size 1064

run-1/checkpoint-480/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-1/checkpoint-480/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-1/checkpoint-480/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-1/checkpoint-480/trainer_state.json ADDED Viewed

	@@ -0,0 +1,121 @@

+{
+  "best_metric": 0.8277886497064579,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-480",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 480,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.4932310581207275,
+      "learning_rate": 0.00022974033046670533,
+      "loss": 0.4667,
+      "step": 96
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7651663405088063,
+      "eval_f1": 0.7701149425287357,
+      "eval_loss": 0.4088786244392395,
+      "eval_precision": 0.7542213883677298,
+      "eval_recall": 0.786692759295499,
+      "eval_runtime": 30.971,
+      "eval_samples_per_second": 32.999,
+      "eval_steps_per_second": 1.033,
+      "step": 96
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 2.3421308994293213,
+      "learning_rate": 0.00017230524785002898,
+      "loss": 0.4108,
+      "step": 192
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8052837573385518,
+      "eval_f1": 0.8202348690153567,
+      "eval_loss": 0.39227691292762756,
+      "eval_precision": 0.761744966442953,
+      "eval_recall": 0.8884540117416829,
+      "eval_runtime": 30.7242,
+      "eval_samples_per_second": 33.264,
+      "eval_steps_per_second": 1.042,
+      "step": 192
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 2.60581374168396,
+      "learning_rate": 0.00011487016523335267,
+      "loss": 0.3914,
+      "step": 288
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8199608610567515,
+      "eval_f1": 0.8318098720292504,
+      "eval_loss": 0.38357415795326233,
+      "eval_precision": 0.7804459691252144,
+      "eval_recall": 0.8904109589041096,
+      "eval_runtime": 32.3837,
+      "eval_samples_per_second": 31.559,
+      "eval_steps_per_second": 0.988,
+      "step": 288
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 3.155740737915039,
+      "learning_rate": 5.743508261667633e-05,
+      "loss": 0.3802,
+      "step": 384
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8160469667318982,
+      "eval_f1": 0.8160469667318982,
+      "eval_loss": 0.37758293747901917,
+      "eval_precision": 0.8160469667318982,
+      "eval_recall": 0.8160469667318982,
+      "eval_runtime": 30.8515,
+      "eval_samples_per_second": 33.126,
+      "eval_steps_per_second": 1.037,
+      "step": 384
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.9643956422805786,
+      "learning_rate": 0.0,
+      "loss": 0.3716,
+      "step": 480
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.8277886497064579,
+      "eval_f1": 0.8367346938775511,
+      "eval_loss": 0.37470024824142456,
+      "eval_precision": 0.7954144620811288,
+      "eval_recall": 0.8825831702544031,
+      "eval_runtime": 31.628,
+      "eval_samples_per_second": 32.313,
+      "eval_steps_per_second": 1.012,
+      "step": 480
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 480,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 1178475986400.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.6818846524061118,
+    "learning_rate": 0.00028717541308338166,
+    "num_train_epochs": 5,
+    "temperature": 29
+  }
+}

run-1/checkpoint-480/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:793b34e056c09ac6895e4854810a5a38ad5f7e4ea7bfcdaf2571ad59272936ff
+size 4920

run-1/checkpoint-480/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-2/checkpoint-96/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-2/checkpoint-96/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13d9e3c5574fdd7a017d1ca3a56705f207b41a4f67b51080f14f316154309de5
+size 17549312

run-2/checkpoint-96/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a252a632d5c67eb44cc758aec3453239907af0eb9827c9db8997964e99a1497e
+size 35122746

run-2/checkpoint-96/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:24aa86019b8aea1c551cc1adaf38c4db2fc01de75a22af312230f6b592e0fd81
+size 14054

run-2/checkpoint-96/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e39e4e51c9494499a8a1409f7d0ed6917d746011c4d044f5d8241946c2a360ac
+size 1064

run-2/checkpoint-96/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-2/checkpoint-96/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-2/checkpoint-96/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-2/checkpoint-96/trainer_state.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "best_metric": 0.7837573385518591,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-2/checkpoint-96",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 96,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.613167643547058,
+      "learning_rate": 0.00027081825418014463,
+      "loss": 0.516,
+      "step": 96
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7837573385518591,
+      "eval_f1": 0.8073234524847429,
+      "eval_loss": 0.44109782576560974,
+      "eval_precision": 0.7279874213836478,
+      "eval_recall": 0.9060665362035225,
+      "eval_runtime": 31.7637,
+      "eval_samples_per_second": 32.175,
+      "eval_steps_per_second": 1.007,
+      "step": 96
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 288,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 235695197280.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.7853139256228429,
+    "learning_rate": 0.00040622738127021695,
+    "num_train_epochs": 3,
+    "temperature": 5
+  }
+}

run-2/checkpoint-96/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db0762669f3cc0b738504b8520ffeb23dad59a4047901db16223a1552e162134
+size 4920

run-2/checkpoint-96/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:793b34e056c09ac6895e4854810a5a38ad5f7e4ea7bfcdaf2571ad59272936ff
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:db0762669f3cc0b738504b8520ffeb23dad59a4047901db16223a1552e162134
 size 4920