xuancoblab2023 commited on Apr 20, 2024

Commit

62df0c6

verified ·

1 Parent(s): 9d6d7f0

Training in progress, epoch 1

Browse files

Files changed (37) hide show

logs/events.out.tfevents.1713611543.a9446dbff3d4.7440.14 +2 -2
logs/events.out.tfevents.1713611625.a9446dbff3d4.7440.15 +3 -0
model.safetensors +1 -1
run-12/checkpoint-1120/config.json +34 -0
run-12/checkpoint-1120/model.safetensors +3 -0
run-12/checkpoint-1120/optimizer.pt +3 -0
run-12/checkpoint-1120/rng_state.pth +3 -0
run-12/checkpoint-1120/scheduler.pt +3 -0
run-12/checkpoint-1120/special_tokens_map.json +7 -0
run-12/checkpoint-1120/tokenizer.json +0 -0
run-12/checkpoint-1120/tokenizer_config.json +57 -0
run-12/checkpoint-1120/trainer_state.json +166 -0
run-12/checkpoint-1120/training_args.bin +3 -0
run-12/checkpoint-1120/vocab.txt +0 -0
run-12/checkpoint-1280/config.json +34 -0
run-12/checkpoint-1280/model.safetensors +3 -0
run-12/checkpoint-1280/optimizer.pt +3 -0
run-12/checkpoint-1280/rng_state.pth +3 -0
run-12/checkpoint-1280/scheduler.pt +3 -0
run-12/checkpoint-1280/special_tokens_map.json +7 -0
run-12/checkpoint-1280/tokenizer.json +0 -0
run-12/checkpoint-1280/tokenizer_config.json +57 -0
run-12/checkpoint-1280/trainer_state.json +186 -0
run-12/checkpoint-1280/training_args.bin +3 -0
run-12/checkpoint-1280/vocab.txt +0 -0
run-13/checkpoint-160/config.json +34 -0
run-13/checkpoint-160/model.safetensors +3 -0
run-13/checkpoint-160/optimizer.pt +3 -0
run-13/checkpoint-160/rng_state.pth +3 -0
run-13/checkpoint-160/scheduler.pt +3 -0
run-13/checkpoint-160/special_tokens_map.json +7 -0
run-13/checkpoint-160/tokenizer.json +0 -0
run-13/checkpoint-160/tokenizer_config.json +57 -0
run-13/checkpoint-160/trainer_state.json +46 -0
run-13/checkpoint-160/training_args.bin +3 -0
run-13/checkpoint-160/vocab.txt +0 -0
training_args.bin +1 -1

logs/events.out.tfevents.1713611543.a9446dbff3d4.7440.14 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6399883bf40fcb5b9cd84c5051f1928efc5eb937a51cbac9dcce8e020c77ad37
-size 6213

 version https://git-lfs.github.com/spec/v1
+oid sha256:474b00713c93d22f0edfca24274251f659193662e7647afb66e78b5df6d12ceb
+size 10947

logs/events.out.tfevents.1713611625.a9446dbff3d4.7440.15 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4894eab0be15b8aacf0f737e36e510a7070b526e465056e4403e27737056df4c
+size 5481

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48d33c7a7a2feecdf02d00985b4c6361e683b8e84e1b55423dd7177826fcadb8
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdc0ae4816f22b66a592a170fd26111dc44a68e5570bb669c882dc48701f796e
 size 17549312

run-12/checkpoint-1120/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-12/checkpoint-1120/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:117e2568561e273b09ed7fad65ec574940405e1a07eb276a7d524fb4e1b28548
+size 17549312

run-12/checkpoint-1120/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:79412efaf5bcd4083ec8467b69f46706105fa865fca919fc4ddbd6635ab01836
+size 35123898

run-12/checkpoint-1120/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dff60335fa5283437e5a2cb72f0621ff75353a3210e4a78bc955f52e428c356c
+size 14308

run-12/checkpoint-1120/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5c6a283c7e754c8ebbfc81b82273a2ac1b9c51fff4530da5bf1ec6bb99d5a46
+size 1064

run-12/checkpoint-1120/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-12/checkpoint-1120/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-12/checkpoint-1120/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-12/checkpoint-1120/trainer_state.json ADDED Viewed

	@@ -0,0 +1,166 @@

+{
+  "best_metric": 0.7615686274509804,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-12/checkpoint-1120",
+  "epoch": 7.0,
+  "eval_steps": 500,
+  "global_step": 1120,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.5787363052368164,
+      "learning_rate": 0.00024237605415726302,
+      "loss": 0.4097,
+      "step": 160
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6658823529411765,
+      "eval_f1": 0.009302325581395347,
+      "eval_loss": 0.38458171486854553,
+      "eval_mcc": 0.008873565094161137,
+      "eval_precision": 0.4,
+      "eval_recall": 0.004705882352941176,
+      "eval_runtime": 1.8643,
+      "eval_samples_per_second": 683.908,
+      "eval_steps_per_second": 21.456,
+      "step": 160
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.8726533055305481,
+      "learning_rate": 0.0002077509035633683,
+      "loss": 0.3859,
+      "step": 320
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7027450980392157,
+      "eval_f1": 0.2612085769980507,
+      "eval_loss": 0.37138044834136963,
+      "eval_mcc": 0.24722748455315502,
+      "eval_precision": 0.7613636363636364,
+      "eval_recall": 0.15764705882352942,
+      "eval_runtime": 1.863,
+      "eval_samples_per_second": 684.383,
+      "eval_steps_per_second": 21.471,
+      "step": 320
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 2.1823008060455322,
+      "learning_rate": 0.00017312575296947358,
+      "loss": 0.3761,
+      "step": 480
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7419607843137255,
+      "eval_f1": 0.5168869309838473,
+      "eval_loss": 0.3662872314453125,
+      "eval_mcc": 0.3765709652306714,
+      "eval_precision": 0.6875,
+      "eval_recall": 0.41411764705882353,
+      "eval_runtime": 1.8612,
+      "eval_samples_per_second": 685.044,
+      "eval_steps_per_second": 21.492,
+      "step": 480
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.8506985306739807,
+      "learning_rate": 0.00013850060237557887,
+      "loss": 0.3709,
+      "step": 640
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7231372549019608,
+      "eval_f1": 0.3796133567662565,
+      "eval_loss": 0.36449602246284485,
+      "eval_mcc": 0.315387850148385,
+      "eval_precision": 0.75,
+      "eval_recall": 0.2541176470588235,
+      "eval_runtime": 1.8672,
+      "eval_samples_per_second": 682.835,
+      "eval_steps_per_second": 21.422,
+      "step": 640
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.953569233417511,
+      "learning_rate": 0.00010387545178168416,
+      "loss": 0.3673,
+      "step": 800
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7537254901960785,
+      "eval_f1": 0.5552407932011331,
+      "eval_loss": 0.3644358813762665,
+      "eval_mcc": 0.41074948302085584,
+      "eval_precision": 0.697508896797153,
+      "eval_recall": 0.4611764705882353,
+      "eval_runtime": 1.8615,
+      "eval_samples_per_second": 684.938,
+      "eval_steps_per_second": 21.488,
+      "step": 800
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 1.1368662118911743,
+      "learning_rate": 6.925030118778943e-05,
+      "loss": 0.3635,
+      "step": 960
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.7482352941176471,
+      "eval_f1": 0.5172932330827068,
+      "eval_loss": 0.3630056381225586,
+      "eval_mcc": 0.3915780041490244,
+      "eval_precision": 0.7166666666666667,
+      "eval_recall": 0.4047058823529412,
+      "eval_runtime": 1.8707,
+      "eval_samples_per_second": 681.562,
+      "eval_steps_per_second": 21.382,
+      "step": 960
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 1.311170220375061,
+      "learning_rate": 3.4625150593894717e-05,
+      "loss": 0.363,
+      "step": 1120
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.7615686274509804,
+      "eval_f1": 0.5694050991501417,
+      "eval_loss": 0.3646318018436432,
+      "eval_mcc": 0.43081867600233087,
+      "eval_precision": 0.7153024911032029,
+      "eval_recall": 0.47294117647058825,
+      "eval_runtime": 1.8727,
+      "eval_samples_per_second": 680.818,
+      "eval_steps_per_second": 21.359,
+      "step": 1120
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1280,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 500,
+  "total_flos": 2042288065440.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.6289598397405775,
+    "learning_rate": 0.00027700120475115773,
+    "num_train_epochs": 8,
+    "temperature": 22
+  }
+}

run-12/checkpoint-1120/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10cfddfd934e132ea6dc7875c198f363317e0e1750ec05c41f173c208b4da857
+size 5048

run-12/checkpoint-1120/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-12/checkpoint-1280/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-12/checkpoint-1280/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a9d0e513be64c855ff5d95b01edeedebe49b66f83c2ce3a9e9db1a033401616
+size 17549312

run-12/checkpoint-1280/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:acfdd2f00be1e9039e76ca97df83b5d69cf191601fb61ad1322b959111e92708
+size 35123898

run-12/checkpoint-1280/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:242da79f0f40d17a976877b7744318ca279c3e455ed5f3332156e384fbc450c4
+size 14308

run-12/checkpoint-1280/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cff9a6595c13fd3062fec9e0fc77fc1ebe0550102ad81ed5e49167916fbba6ec
+size 1064

run-12/checkpoint-1280/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-12/checkpoint-1280/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-12/checkpoint-1280/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-12/checkpoint-1280/trainer_state.json ADDED Viewed

	@@ -0,0 +1,186 @@

+{
+  "best_metric": 0.7615686274509804,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-12/checkpoint-1120",
+  "epoch": 8.0,
+  "eval_steps": 500,
+  "global_step": 1280,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.5787363052368164,
+      "learning_rate": 0.00024237605415726302,
+      "loss": 0.4097,
+      "step": 160
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6658823529411765,
+      "eval_f1": 0.009302325581395347,
+      "eval_loss": 0.38458171486854553,
+      "eval_mcc": 0.008873565094161137,
+      "eval_precision": 0.4,
+      "eval_recall": 0.004705882352941176,
+      "eval_runtime": 1.8643,
+      "eval_samples_per_second": 683.908,
+      "eval_steps_per_second": 21.456,
+      "step": 160
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.8726533055305481,
+      "learning_rate": 0.0002077509035633683,
+      "loss": 0.3859,
+      "step": 320
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7027450980392157,
+      "eval_f1": 0.2612085769980507,
+      "eval_loss": 0.37138044834136963,
+      "eval_mcc": 0.24722748455315502,
+      "eval_precision": 0.7613636363636364,
+      "eval_recall": 0.15764705882352942,
+      "eval_runtime": 1.863,
+      "eval_samples_per_second": 684.383,
+      "eval_steps_per_second": 21.471,
+      "step": 320
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 2.1823008060455322,
+      "learning_rate": 0.00017312575296947358,
+      "loss": 0.3761,
+      "step": 480
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7419607843137255,
+      "eval_f1": 0.5168869309838473,
+      "eval_loss": 0.3662872314453125,
+      "eval_mcc": 0.3765709652306714,
+      "eval_precision": 0.6875,
+      "eval_recall": 0.41411764705882353,
+      "eval_runtime": 1.8612,
+      "eval_samples_per_second": 685.044,
+      "eval_steps_per_second": 21.492,
+      "step": 480
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.8506985306739807,
+      "learning_rate": 0.00013850060237557887,
+      "loss": 0.3709,
+      "step": 640
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7231372549019608,
+      "eval_f1": 0.3796133567662565,
+      "eval_loss": 0.36449602246284485,
+      "eval_mcc": 0.315387850148385,
+      "eval_precision": 0.75,
+      "eval_recall": 0.2541176470588235,
+      "eval_runtime": 1.8672,
+      "eval_samples_per_second": 682.835,
+      "eval_steps_per_second": 21.422,
+      "step": 640
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.953569233417511,
+      "learning_rate": 0.00010387545178168416,
+      "loss": 0.3673,
+      "step": 800
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7537254901960785,
+      "eval_f1": 0.5552407932011331,
+      "eval_loss": 0.3644358813762665,
+      "eval_mcc": 0.41074948302085584,
+      "eval_precision": 0.697508896797153,
+      "eval_recall": 0.4611764705882353,
+      "eval_runtime": 1.8615,
+      "eval_samples_per_second": 684.938,
+      "eval_steps_per_second": 21.488,
+      "step": 800
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 1.1368662118911743,
+      "learning_rate": 6.925030118778943e-05,
+      "loss": 0.3635,
+      "step": 960
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.7482352941176471,
+      "eval_f1": 0.5172932330827068,
+      "eval_loss": 0.3630056381225586,
+      "eval_mcc": 0.3915780041490244,
+      "eval_precision": 0.7166666666666667,
+      "eval_recall": 0.4047058823529412,
+      "eval_runtime": 1.8707,
+      "eval_samples_per_second": 681.562,
+      "eval_steps_per_second": 21.382,
+      "step": 960
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 1.311170220375061,
+      "learning_rate": 3.4625150593894717e-05,
+      "loss": 0.363,
+      "step": 1120
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.7615686274509804,
+      "eval_f1": 0.5694050991501417,
+      "eval_loss": 0.3646318018436432,
+      "eval_mcc": 0.43081867600233087,
+      "eval_precision": 0.7153024911032029,
+      "eval_recall": 0.47294117647058825,
+      "eval_runtime": 1.8727,
+      "eval_samples_per_second": 680.818,
+      "eval_steps_per_second": 21.359,
+      "step": 1120
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 1.0805109739303589,
+      "learning_rate": 0.0,
+      "loss": 0.3592,
+      "step": 1280
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7513725490196078,
+      "eval_f1": 0.5261584454409567,
+      "eval_loss": 0.3618643283843994,
+      "eval_mcc": 0.40038619635473977,
+      "eval_precision": 0.7213114754098361,
+      "eval_recall": 0.41411764705882353,
+      "eval_runtime": 1.8765,
+      "eval_samples_per_second": 679.461,
+      "eval_steps_per_second": 21.316,
+      "step": 1280
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1280,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 500,
+  "total_flos": 2334043503360.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.6289598397405775,
+    "learning_rate": 0.00027700120475115773,
+    "num_train_epochs": 8,
+    "temperature": 22
+  }
+}

run-12/checkpoint-1280/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10cfddfd934e132ea6dc7875c198f363317e0e1750ec05c41f173c208b4da857
+size 5048

run-12/checkpoint-1280/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-13/checkpoint-160/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-13/checkpoint-160/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cdc0ae4816f22b66a592a170fd26111dc44a68e5570bb669c882dc48701f796e
+size 17549312

run-13/checkpoint-160/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b061e31b2793eeb26fb6062d49c512092966661bed1e59870e4606a500add2d9
+size 35123898

run-13/checkpoint-160/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0792eaff268dd73c8e104b5060a487f4ef56535ad3b58888006338b8bc298137
+size 14308

run-13/checkpoint-160/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e0402f9c66eeb4113862ef74793aa7d89bec0f0c3672427fd1370dba37f297d
+size 1064

run-13/checkpoint-160/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-13/checkpoint-160/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-13/checkpoint-160/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-13/checkpoint-160/trainer_state.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "best_metric": 0.668235294117647,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-13/checkpoint-160",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 160,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.6348164081573486,
+      "learning_rate": 0.00028293467755282096,
+      "loss": 0.4646,
+      "step": 160
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.668235294117647,
+      "eval_f1": 0.018561484918793503,
+      "eval_loss": 0.43796491622924805,
+      "eval_mcc": 0.04862166383263152,
+      "eval_precision": 0.6666666666666666,
+      "eval_recall": 0.009411764705882352,
+      "eval_runtime": 1.8631,
+      "eval_samples_per_second": 684.329,
+      "eval_steps_per_second": 21.469,
+      "step": 160
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1280,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 500,
+  "total_flos": 291755437920.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.7266899336949371,
+    "learning_rate": 0.000323353917203224,
+    "num_train_epochs": 8,
+    "temperature": 24
+  }
+}

run-13/checkpoint-160/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b75d1a13345b1b7409ffa5572fa151259b0166dcbee52e95898829d69dc6b9cd
+size 5048

run-13/checkpoint-160/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10cfddfd934e132ea6dc7875c198f363317e0e1750ec05c41f173c208b4da857
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:b75d1a13345b1b7409ffa5572fa151259b0166dcbee52e95898829d69dc6b9cd
 size 5048