xuancoblab2023 commited on Mar 7, 2024

Commit

4023d2f

verified ·

1 Parent(s): 35c7dd1

Training in progress, epoch 1

Browse files

Files changed (26) hide show

logs/events.out.tfevents.1709830168.013ec1551212.75384.10 +2 -2
logs/events.out.tfevents.1709833046.013ec1551212.75384.11 +3 -0
model.safetensors +1 -1
run-10/checkpoint-3064/config.json +34 -0
run-10/checkpoint-3064/model.safetensors +3 -0
run-10/checkpoint-3064/optimizer.pt +3 -0
run-10/checkpoint-3064/rng_state.pth +3 -0
run-10/checkpoint-3064/scheduler.pt +3 -0
run-10/checkpoint-3064/special_tokens_map.json +7 -0
run-10/checkpoint-3064/tokenizer.json +0 -0
run-10/checkpoint-3064/tokenizer_config.json +57 -0
run-10/checkpoint-3064/trainer_state.json +102 -0
run-10/checkpoint-3064/training_args.bin +3 -0
run-10/checkpoint-3064/vocab.txt +0 -0
run-10/checkpoint-3830/config.json +34 -0
run-10/checkpoint-3830/model.safetensors +3 -0
run-10/checkpoint-3830/optimizer.pt +3 -0
run-10/checkpoint-3830/rng_state.pth +3 -0
run-10/checkpoint-3830/scheduler.pt +3 -0
run-10/checkpoint-3830/special_tokens_map.json +7 -0
run-10/checkpoint-3830/tokenizer.json +0 -0
run-10/checkpoint-3830/tokenizer_config.json +57 -0
run-10/checkpoint-3830/trainer_state.json +121 -0
run-10/checkpoint-3830/training_args.bin +3 -0
run-10/checkpoint-3830/vocab.txt +0 -0
training_args.bin +1 -1

logs/events.out.tfevents.1709830168.013ec1551212.75384.10 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:022cb0d4da681b1af239f659fdf5d0904d42948912c01617bdbcc5f49fb55e5b
-size 6009

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae3ed94ecda2b8c14610328d937f88813a761bd0576f4ddf9fbc07a6cb1147e0
+size 8412

logs/events.out.tfevents.1709833046.013ec1551212.75384.11 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9937d7a3ced4f85ec9f5600d86db44c3295fadeaf70bd96541daad81ba92d79e
+size 5327

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ffb9758ace501a2efed0d1c9d85352519bb9020532e6e96fae45014af516f54
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba6a925b300b87f4c8add22343cf28f3f985adbd97d126de046ee4b4b8816234
 size 17549312

run-10/checkpoint-3064/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-10/checkpoint-3064/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19935a2b665aa4497b105ad554bc4408d5e1940882d3b35810c1e850a6f0ecbf
+size 17549312

run-10/checkpoint-3064/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4fe22f0682fdee42e86e623c37fe53975b447405bdbeec0c3cd3d09766b85ee4
+size 35122746

run-10/checkpoint-3064/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:292ad54a0d62461febd393d8e26ded58c99675978b26670e37515848b048d88a
+size 14054

run-10/checkpoint-3064/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc13f07dd9e7bc8f924b47ea2e60a799f2068514505b22d559aebf7b3d7fab01
+size 1064

run-10/checkpoint-3064/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-10/checkpoint-3064/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-10/checkpoint-3064/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-10/checkpoint-3064/trainer_state.json ADDED Viewed

	@@ -0,0 +1,102 @@

+{
+  "best_metric": 0.7710371819960861,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-10/checkpoint-3064",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 3064,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.387345790863037,
+      "learning_rate": 9.274722577647405e-06,
+      "loss": 0.6719,
+      "step": 766
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6594911937377691,
+      "eval_f1": 0.5786924939467312,
+      "eval_loss": 0.6500130891799927,
+      "eval_precision": 0.7587301587301587,
+      "eval_recall": 0.46771037181996084,
+      "eval_runtime": 133.0073,
+      "eval_samples_per_second": 7.684,
+      "eval_steps_per_second": 1.925,
+      "step": 766
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 11.753175735473633,
+      "learning_rate": 6.956041933235553e-06,
+      "loss": 0.6052,
+      "step": 1532
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7250489236790607,
+      "eval_f1": 0.7236971484759096,
+      "eval_loss": 0.5506593585014343,
+      "eval_precision": 0.7272727272727273,
+      "eval_recall": 0.7201565557729941,
+      "eval_runtime": 131.7286,
+      "eval_samples_per_second": 7.758,
+      "eval_steps_per_second": 1.943,
+      "step": 1532
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 16.92954444885254,
+      "learning_rate": 4.637361288823702e-06,
+      "loss": 0.5438,
+      "step": 2298
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7583170254403131,
+      "eval_f1": 0.7776777677767776,
+      "eval_loss": 0.5147304534912109,
+      "eval_precision": 0.72,
+      "eval_recall": 0.8454011741682974,
+      "eval_runtime": 132.3477,
+      "eval_samples_per_second": 7.722,
+      "eval_steps_per_second": 1.934,
+      "step": 2298
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 12.114532470703125,
+      "learning_rate": 2.318680644411851e-06,
+      "loss": 0.523,
+      "step": 3064
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7710371819960861,
+      "eval_f1": 0.7975778546712803,
+      "eval_loss": 0.5050157904624939,
+      "eval_precision": 0.7147286821705426,
+      "eval_recall": 0.9021526418786693,
+      "eval_runtime": 130.8317,
+      "eval_samples_per_second": 7.812,
+      "eval_steps_per_second": 1.957,
+      "step": 3064
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 3830,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 942780789120.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.9677948459483069,
+    "learning_rate": 1.1593403222059255e-05,
+    "num_train_epochs": 5,
+    "temperature": 2
+  }
+}

run-10/checkpoint-3064/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c8d4b0abe216ba170bd761bd504065d89b1a27eefb7d7b5253dcb9e03174b61
+size 4920

run-10/checkpoint-3064/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-10/checkpoint-3830/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-10/checkpoint-3830/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3b326c885ddb43ec8a7b5eaa966fb0481447d44eb83ac283b3d19fa20c33d06
+size 17549312

run-10/checkpoint-3830/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab47281aa03019d350d8385705eb5d6405f41c944ce72718dd871029b2021aa2
+size 35122746

run-10/checkpoint-3830/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11f0f7f8253cabe8457ea3e8be3f556fa57dd5de6a14e336e6ae5d5e2e50d1cf
+size 14054

run-10/checkpoint-3830/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff00e84bd9034d5be386eb4d312972464ee3eda41c0e2f73afb768b77871751e
+size 1064

run-10/checkpoint-3830/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-10/checkpoint-3830/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-10/checkpoint-3830/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-10/checkpoint-3830/trainer_state.json ADDED Viewed

	@@ -0,0 +1,121 @@

+{
+  "best_metric": 0.7720156555772995,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-10/checkpoint-3830",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 3830,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.387345790863037,
+      "learning_rate": 9.274722577647405e-06,
+      "loss": 0.6719,
+      "step": 766
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6594911937377691,
+      "eval_f1": 0.5786924939467312,
+      "eval_loss": 0.6500130891799927,
+      "eval_precision": 0.7587301587301587,
+      "eval_recall": 0.46771037181996084,
+      "eval_runtime": 133.0073,
+      "eval_samples_per_second": 7.684,
+      "eval_steps_per_second": 1.925,
+      "step": 766
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 11.753175735473633,
+      "learning_rate": 6.956041933235553e-06,
+      "loss": 0.6052,
+      "step": 1532
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7250489236790607,
+      "eval_f1": 0.7236971484759096,
+      "eval_loss": 0.5506593585014343,
+      "eval_precision": 0.7272727272727273,
+      "eval_recall": 0.7201565557729941,
+      "eval_runtime": 131.7286,
+      "eval_samples_per_second": 7.758,
+      "eval_steps_per_second": 1.943,
+      "step": 1532
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 16.92954444885254,
+      "learning_rate": 4.637361288823702e-06,
+      "loss": 0.5438,
+      "step": 2298
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7583170254403131,
+      "eval_f1": 0.7776777677767776,
+      "eval_loss": 0.5147304534912109,
+      "eval_precision": 0.72,
+      "eval_recall": 0.8454011741682974,
+      "eval_runtime": 132.3477,
+      "eval_samples_per_second": 7.722,
+      "eval_steps_per_second": 1.934,
+      "step": 2298
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 12.114532470703125,
+      "learning_rate": 2.318680644411851e-06,
+      "loss": 0.523,
+      "step": 3064
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7710371819960861,
+      "eval_f1": 0.7975778546712803,
+      "eval_loss": 0.5050157904624939,
+      "eval_precision": 0.7147286821705426,
+      "eval_recall": 0.9021526418786693,
+      "eval_runtime": 130.8317,
+      "eval_samples_per_second": 7.812,
+      "eval_steps_per_second": 1.957,
+      "step": 3064
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 12.235973358154297,
+      "learning_rate": 0.0,
+      "loss": 0.517,
+      "step": 3830
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7720156555772995,
+      "eval_f1": 0.7986171132238549,
+      "eval_loss": 0.5030738711357117,
+      "eval_precision": 0.7151702786377709,
+      "eval_recall": 0.9041095890410958,
+      "eval_runtime": 131.0021,
+      "eval_samples_per_second": 7.801,
+      "eval_steps_per_second": 1.954,
+      "step": 3830
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 3830,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 1178475986400.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.9677948459483069,
+    "learning_rate": 1.1593403222059255e-05,
+    "num_train_epochs": 5,
+    "temperature": 2
+  }
+}

run-10/checkpoint-3830/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c8d4b0abe216ba170bd761bd504065d89b1a27eefb7d7b5253dcb9e03174b61
+size 4920

run-10/checkpoint-3830/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c8d4b0abe216ba170bd761bd504065d89b1a27eefb7d7b5253dcb9e03174b61
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:409ec1984e2d5cff028ef6bb39e97817ab3783d68df1b09e0ed6af4b8373ac1d
 size 4920