xuancoblab2023 commited on Mar 8, 2024

Commit

8d1c664

verified ·

1 Parent(s): 505b478

Training in progress, epoch 1

Browse files

Files changed (32) hide show

logs/events.out.tfevents.1709875287.6c1c016b0e3e.7263.10 +2 -2
logs/events.out.tfevents.1709876067.6c1c016b0e3e.7263.11 +3 -0
model.safetensors +1 -1
run-10/checkpoint-288/model.safetensors +1 -1
run-10/checkpoint-288/optimizer.pt +1 -1
run-10/checkpoint-288/rng_state.pth +1 -1
run-10/checkpoint-288/scheduler.pt +1 -1
run-10/checkpoint-288/trainer_state.json +104 -47
run-10/checkpoint-288/training_args.bin +1 -1
run-10/checkpoint-336/config.json +34 -0
run-10/checkpoint-336/model.safetensors +3 -0
run-10/checkpoint-336/optimizer.pt +3 -0
run-10/checkpoint-336/rng_state.pth +3 -0
run-10/checkpoint-336/scheduler.pt +3 -0
run-10/checkpoint-336/special_tokens_map.json +7 -0
run-10/checkpoint-336/tokenizer.json +0 -0
run-10/checkpoint-336/tokenizer_config.json +57 -0
run-10/checkpoint-336/trainer_state.json +159 -0
run-10/checkpoint-336/training_args.bin +3 -0
run-10/checkpoint-336/vocab.txt +0 -0
run-11/checkpoint-48/config.json +34 -0
run-11/checkpoint-48/model.safetensors +3 -0
run-11/checkpoint-48/optimizer.pt +3 -0
run-11/checkpoint-48/rng_state.pth +3 -0
run-11/checkpoint-48/scheduler.pt +3 -0
run-11/checkpoint-48/special_tokens_map.json +7 -0
run-11/checkpoint-48/tokenizer.json +0 -0
run-11/checkpoint-48/tokenizer_config.json +57 -0
run-11/checkpoint-48/trainer_state.json +45 -0
run-11/checkpoint-48/training_args.bin +3 -0
run-11/checkpoint-48/vocab.txt +0 -0
training_args.bin +1 -1

logs/events.out.tfevents.1709875287.6c1c016b0e3e.7263.10 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2bcab083891fd620f61ecea3f0e974684edae28e1d635b7db83b0e20171e340
-size 5984

 version https://git-lfs.github.com/spec/v1
+oid sha256:4327b87919dbbe94f8e79a4891c578c3a1b7e1ea3caa619c6a632bd7c54f00b9
+size 9753

logs/events.out.tfevents.1709876067.6c1c016b0e3e.7263.11 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e6d98aed345117a010060b30bf0c50ede7b829e269a95a23a3f2d664634f193
+size 5314

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c776f2b49c9ca0ef99506874999e86d97cc1a9217be90a32ee5b80456d1e3d6e
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:361284d6cbbbf0747d1d2496b9712460a833e47055619c1ce3d78588bf871550
 size 17549312

run-10/checkpoint-288/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90544cd346f84f4589af99a78110877a58e704cb23b6f374ebdfba5b1f7654c5
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:16fde600bac51204144e3af5549aadff6874a092e8bba58ee66b59cf759a6f1c
 size 17549312

run-10/checkpoint-288/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72c3fc2822ded408ee92a83ac988187d1edba9601e41f58ea728289e3b9381cb
 size 35122746

 version https://git-lfs.github.com/spec/v1
+oid sha256:2537703686efc188dccb3cb6511447099a3ded3581554b578e100ed57db6d64d
 size 35122746

run-10/checkpoint-288/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba3c2bb1d96a39a28ae1b66f234e351e3c13c700fc97347efd6308798b151790
 size 14054

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcc277e7d1d83522a853f43efa19a0dd29e8896ab414cd166ac88116bce74f64
 size 14054

run-10/checkpoint-288/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c115d3f4c35a47d3adb59e1f87f96436fbc076b7e6a682ba8005683cfea2d74
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:733baf3bbf0bc4e04a501520755b8d276b20695f85c3038a12c240464c860b0c
 size 1064

run-10/checkpoint-288/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.8297455968688845,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-10/checkpoint-288",
-  "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 288,
   "is_hyper_param_search": true,
@@ -10,74 +10,131 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 1.9170680046081543,
-      "learning_rate": 0.0005212663608648181,
-      "loss": 0.5641,
-      "step": 96
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.799412915851272,
-      "eval_f1": 0.8197009674582234,
-      "eval_loss": 0.47259676456451416,
-      "eval_precision": 0.744408945686901,
-      "eval_recall": 0.9119373776908023,
-      "eval_runtime": 30.8424,
-      "eval_samples_per_second": 33.136,
-      "eval_steps_per_second": 1.038,
       "step": 96
     },
     {
       "epoch": 2.0,
-      "grad_norm": 2.4848690032958984,
-      "learning_rate": 0.00026063318043240905,
-      "loss": 0.456,
       "step": 192
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.824853228962818,
-      "eval_f1": 0.8406055209260909,
-      "eval_loss": 0.4349122643470764,
-      "eval_precision": 0.7712418300653595,
-      "eval_recall": 0.923679060665362,
-      "eval_runtime": 31.1515,
-      "eval_samples_per_second": 32.807,
-      "eval_steps_per_second": 1.027,
       "step": 192
     },
     {
-      "epoch": 3.0,
-      "grad_norm": 4.3911333084106445,
-      "learning_rate": 0.0,
-      "loss": 0.4063,
       "step": 288
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.8297455968688845,
-      "eval_f1": 0.8421052631578947,
-      "eval_loss": 0.42057597637176514,
-      "eval_precision": 0.7851099830795262,
-      "eval_recall": 0.9080234833659491,
-      "eval_runtime": 32.1366,
-      "eval_samples_per_second": 31.802,
-      "eval_steps_per_second": 0.996,
       "step": 288
     }
   ],
   "logging_steps": 500,
-  "max_steps": 288,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 707085591840.0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.9610512963031814,
-    "learning_rate": 0.0007818995412972273,
-    "num_train_epochs": 3,
-    "temperature": 24
   }
 }

 {
+  "best_metric": 0.8140900195694716,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-10/checkpoint-288",
+  "epoch": 6.0,
   "eval_steps": 500,
   "global_step": 288,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 1.5607351064682007,
+      "learning_rate": 0.0008549093212842401,
+      "loss": 0.5996,
+      "step": 48
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7632093933463796,
+      "eval_f1": 0.7949152542372881,
+      "eval_loss": 0.502604067325592,
+      "eval_precision": 0.7010463378176383,
+      "eval_recall": 0.9178082191780822,
+      "eval_runtime": 27.7883,
+      "eval_samples_per_second": 36.778,
+      "eval_steps_per_second": 0.576,
+      "step": 48
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 3.883798122406006,
+      "learning_rate": 0.0007124244344035335,
+      "loss": 0.4919,
       "step": 96
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7847358121330724,
+      "eval_f1": 0.8066783831282953,
+      "eval_loss": 0.4441834092140198,
+      "eval_precision": 0.7320574162679426,
+      "eval_recall": 0.898238747553816,
+      "eval_runtime": 27.0257,
+      "eval_samples_per_second": 37.816,
+      "eval_steps_per_second": 0.592,
+      "step": 96
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 3.711146116256714,
+      "learning_rate": 0.0005699395475228268,
+      "loss": 0.449,
+      "step": 144
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.799412915851272,
+      "eval_f1": 0.8222029488291415,
+      "eval_loss": 0.46845388412475586,
+      "eval_precision": 0.7383177570093458,
+      "eval_recall": 0.9275929549902152,
+      "eval_runtime": 27.3696,
+      "eval_samples_per_second": 37.341,
+      "eval_steps_per_second": 0.585,
+      "step": 144
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 4.223331451416016,
+      "learning_rate": 0.0004274546606421201,
+      "loss": 0.4144,
       "step": 192
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8003913894324853,
+      "eval_f1": 0.796812749003984,
+      "eval_loss": 0.45222949981689453,
+      "eval_precision": 0.8113590263691683,
+      "eval_recall": 0.7827788649706457,
+      "eval_runtime": 27.0074,
+      "eval_samples_per_second": 37.841,
+      "eval_steps_per_second": 0.592,
       "step": 192
     },
     {
+      "epoch": 5.0,
+      "grad_norm": 2.6906895637512207,
+      "learning_rate": 0.0002849697737614134,
+      "loss": 0.3883,
+      "step": 240
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.8033268101761253,
+      "eval_f1": 0.8280581693755347,
+      "eval_loss": 0.4314705431461334,
+      "eval_precision": 0.7355623100303952,
+      "eval_recall": 0.9471624266144814,
+      "eval_runtime": 27.3713,
+      "eval_samples_per_second": 37.338,
+      "eval_steps_per_second": 0.585,
+      "step": 240
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 2.0857512950897217,
+      "learning_rate": 0.0001424848868807067,
+      "loss": 0.3715,
       "step": 288
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8140900195694716,
+      "eval_f1": 0.8327464788732395,
+      "eval_loss": 0.4203811585903168,
+      "eval_precision": 0.7568,
+      "eval_recall": 0.9256360078277887,
+      "eval_runtime": 27.3476,
+      "eval_samples_per_second": 37.371,
+      "eval_steps_per_second": 0.585,
       "step": 288
     }
   ],
   "logging_steps": 500,
+  "max_steps": 336,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
   "save_steps": 500,
+  "total_flos": 1414171183680.0,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.9873851004059778,
+    "learning_rate": 0.0009973942081649468,
+    "num_train_epochs": 7,
+    "temperature": 16
   }
 }

run-10/checkpoint-288/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c48cb920a64a7322ad1d6d741321a643be4ed10af970a24a154150a0def2990
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cb76553ba5d5fd16067059456c55e07ddbd2f0f51720f91f3d3e0bb7e3a6405
 size 4920

run-10/checkpoint-336/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-10/checkpoint-336/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db8fa0c6189436d5f7ed954aecc452f28c14a2f60bae8edc6e3af80084c3c2eb
+size 17549312

run-10/checkpoint-336/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:05006656683bf23068bad41417e56cd397242a22b1831ffd9d753f9ee90bcb0e
+size 35122746

run-10/checkpoint-336/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:30720e851cc54860df5aa89a6892389c4264a6061ff42a4eef7ff950f504b083
+size 14054

run-10/checkpoint-336/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f8a700295948ab1cf174647dfa8e4b564d6690fbaaafa7ad04ce093ef700034
+size 1064

run-10/checkpoint-336/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-10/checkpoint-336/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-10/checkpoint-336/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-10/checkpoint-336/trainer_state.json ADDED Viewed

	@@ -0,0 +1,159 @@

+{
+  "best_metric": 0.824853228962818,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-10/checkpoint-336",
+  "epoch": 7.0,
+  "eval_steps": 500,
+  "global_step": 336,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.5607351064682007,
+      "learning_rate": 0.0008549093212842401,
+      "loss": 0.5996,
+      "step": 48
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7632093933463796,
+      "eval_f1": 0.7949152542372881,
+      "eval_loss": 0.502604067325592,
+      "eval_precision": 0.7010463378176383,
+      "eval_recall": 0.9178082191780822,
+      "eval_runtime": 27.7883,
+      "eval_samples_per_second": 36.778,
+      "eval_steps_per_second": 0.576,
+      "step": 48
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 3.883798122406006,
+      "learning_rate": 0.0007124244344035335,
+      "loss": 0.4919,
+      "step": 96
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7847358121330724,
+      "eval_f1": 0.8066783831282953,
+      "eval_loss": 0.4441834092140198,
+      "eval_precision": 0.7320574162679426,
+      "eval_recall": 0.898238747553816,
+      "eval_runtime": 27.0257,
+      "eval_samples_per_second": 37.816,
+      "eval_steps_per_second": 0.592,
+      "step": 96
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 3.711146116256714,
+      "learning_rate": 0.0005699395475228268,
+      "loss": 0.449,
+      "step": 144
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.799412915851272,
+      "eval_f1": 0.8222029488291415,
+      "eval_loss": 0.46845388412475586,
+      "eval_precision": 0.7383177570093458,
+      "eval_recall": 0.9275929549902152,
+      "eval_runtime": 27.3696,
+      "eval_samples_per_second": 37.341,
+      "eval_steps_per_second": 0.585,
+      "step": 144
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 4.223331451416016,
+      "learning_rate": 0.0004274546606421201,
+      "loss": 0.4144,
+      "step": 192
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8003913894324853,
+      "eval_f1": 0.796812749003984,
+      "eval_loss": 0.45222949981689453,
+      "eval_precision": 0.8113590263691683,
+      "eval_recall": 0.7827788649706457,
+      "eval_runtime": 27.0074,
+      "eval_samples_per_second": 37.841,
+      "eval_steps_per_second": 0.592,
+      "step": 192
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.6906895637512207,
+      "learning_rate": 0.0002849697737614134,
+      "loss": 0.3883,
+      "step": 240
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.8033268101761253,
+      "eval_f1": 0.8280581693755347,
+      "eval_loss": 0.4314705431461334,
+      "eval_precision": 0.7355623100303952,
+      "eval_recall": 0.9471624266144814,
+      "eval_runtime": 27.3713,
+      "eval_samples_per_second": 37.338,
+      "eval_steps_per_second": 0.585,
+      "step": 240
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 2.0857512950897217,
+      "learning_rate": 0.0001424848868807067,
+      "loss": 0.3715,
+      "step": 288
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8140900195694716,
+      "eval_f1": 0.8327464788732395,
+      "eval_loss": 0.4203811585903168,
+      "eval_precision": 0.7568,
+      "eval_recall": 0.9256360078277887,
+      "eval_runtime": 27.3476,
+      "eval_samples_per_second": 37.371,
+      "eval_steps_per_second": 0.585,
+      "step": 288
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 2.2891719341278076,
+      "learning_rate": 0.0,
+      "loss": 0.3626,
+      "step": 336
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.824853228962818,
+      "eval_f1": 0.8359303391384051,
+      "eval_loss": 0.4121144413948059,
+      "eval_precision": 0.7862068965517242,
+      "eval_recall": 0.8923679060665362,
+      "eval_runtime": 30.2756,
+      "eval_samples_per_second": 33.757,
+      "eval_steps_per_second": 0.528,
+      "step": 336
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 336,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
+  "save_steps": 500,
+  "total_flos": 1649866380960.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.9873851004059778,
+    "learning_rate": 0.0009973942081649468,
+    "num_train_epochs": 7,
+    "temperature": 16
+  }
+}

run-10/checkpoint-336/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8cb76553ba5d5fd16067059456c55e07ddbd2f0f51720f91f3d3e0bb7e3a6405
+size 4920

run-10/checkpoint-336/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-11/checkpoint-48/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-11/checkpoint-48/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:361284d6cbbbf0747d1d2496b9712460a833e47055619c1ce3d78588bf871550
+size 17549312

run-11/checkpoint-48/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c25644a65bdf41de7ee0309c13f675afc49f167008ba62ccb37e4e30760af0c
+size 35122746

run-11/checkpoint-48/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f731098665929ed6a815501631b54240caaac6508207c5c55cf0fe36ad39b17
+size 14054

run-11/checkpoint-48/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:678e7fd168382ae4d233368ea59a020ab00987ed0913f4b94fa8eb4e73fa2007
+size 1064

run-11/checkpoint-48/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-11/checkpoint-48/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-11/checkpoint-48/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-11/checkpoint-48/trainer_state.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "best_metric": 0.7524461839530333,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-11/checkpoint-48",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 48,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.152926206588745,
+      "learning_rate": 0.0007816128679887146,
+      "loss": 0.591,
+      "step": 48
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7524461839530333,
+      "eval_f1": 0.7944760357432982,
+      "eval_loss": 0.4880000948905945,
+      "eval_precision": 0.6791666666666667,
+      "eval_recall": 0.9569471624266145,
+      "eval_runtime": 29.551,
+      "eval_samples_per_second": 34.584,
+      "eval_steps_per_second": 0.541,
+      "step": 48
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 336,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
+  "save_steps": 500,
+  "total_flos": 235695197280.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.9971844266637861,
+    "learning_rate": 0.0009118816793201671,
+    "num_train_epochs": 7,
+    "temperature": 16
+  }
+}

run-11/checkpoint-48/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a283f7ca8fa712756294b7fd6d3247bcb44ee70c9bb9ae961204f34de91039c
+size 4920

run-11/checkpoint-48/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8cb76553ba5d5fd16067059456c55e07ddbd2f0f51720f91f3d3e0bb7e3a6405
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a283f7ca8fa712756294b7fd6d3247bcb44ee70c9bb9ae961204f34de91039c
 size 4920