xuancoblab2023 commited on Apr 20, 2024

Commit

74ee53a

verified ·

1 Parent(s): 10f7e8f

Training in progress, epoch 7

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

logs/events.out.tfevents.1713593661.1376c752d37a.9760.55 +3 -0
logs/events.out.tfevents.1713593732.1376c752d37a.9760.56 +3 -0
logs/events.out.tfevents.1713594035.1376c752d37a.9760.57 +3 -0
logs/events.out.tfevents.1713594075.1376c752d37a.9760.58 +3 -0
logs/events.out.tfevents.1713594312.1376c752d37a.9760.59 +3 -0
logs/events.out.tfevents.1713594347.1376c752d37a.9760.60 +3 -0
model.safetensors +1 -1
run-2/checkpoint-214/model.safetensors +1 -1
run-2/checkpoint-214/optimizer.pt +1 -1
run-2/checkpoint-214/scheduler.pt +1 -1
run-2/checkpoint-214/trainer_state.json +19 -19
run-2/checkpoint-214/training_args.bin +1 -1
run-3/checkpoint-214/model.safetensors +1 -1
run-3/checkpoint-214/optimizer.pt +1 -1
run-3/checkpoint-214/scheduler.pt +1 -1
run-3/checkpoint-214/trainer_state.json +13 -13
run-3/checkpoint-214/training_args.bin +1 -1
run-3/checkpoint-3852/config.json +34 -0
run-3/checkpoint-3852/model.safetensors +3 -0
run-3/checkpoint-3852/optimizer.pt +3 -0
run-3/checkpoint-3852/rng_state.pth +3 -0
run-3/checkpoint-3852/scheduler.pt +3 -0
run-3/checkpoint-3852/special_tokens_map.json +7 -0
run-3/checkpoint-3852/tokenizer.json +0 -0
run-3/checkpoint-3852/tokenizer_config.json +57 -0
run-3/checkpoint-3852/trainer_state.json +386 -0
run-3/checkpoint-3852/training_args.bin +3 -0
run-3/checkpoint-3852/vocab.txt +0 -0
run-4/checkpoint-214/model.safetensors +1 -1
run-4/checkpoint-214/optimizer.pt +1 -1
run-4/checkpoint-214/scheduler.pt +1 -1
run-4/checkpoint-214/trainer_state.json +17 -17
run-4/checkpoint-214/training_args.bin +1 -1
run-5/checkpoint-2782/config.json +34 -0
run-5/checkpoint-2782/model.safetensors +3 -0
run-5/checkpoint-2782/optimizer.pt +3 -0
run-5/checkpoint-2782/rng_state.pth +3 -0
run-5/checkpoint-2782/scheduler.pt +3 -0
run-5/checkpoint-2782/special_tokens_map.json +7 -0
run-5/checkpoint-2782/tokenizer.json +0 -0
run-5/checkpoint-2782/tokenizer_config.json +57 -0
run-5/checkpoint-2782/trainer_state.json +286 -0
run-5/checkpoint-2782/training_args.bin +3 -0
run-5/checkpoint-2782/vocab.txt +0 -0
run-5/checkpoint-2996/config.json +34 -0
run-5/checkpoint-2996/model.safetensors +3 -0
run-5/checkpoint-2996/optimizer.pt +3 -0
run-5/checkpoint-2996/rng_state.pth +3 -0
run-5/checkpoint-2996/scheduler.pt +3 -0
run-5/checkpoint-2996/special_tokens_map.json +7 -0

logs/events.out.tfevents.1713593661.1376c752d37a.9760.55 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8009594d2527ae229e87afd4cb729c25d630f5825aff6d5e9f1e8d1389013799
+size 8026

logs/events.out.tfevents.1713593732.1376c752d37a.9760.56 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3cabe0008807ecd78a2c7b113878dca94a39998c3e10953233c42d951defc415
+size 18247

logs/events.out.tfevents.1713594035.1376c752d37a.9760.57 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:49beab12c4e3ef5ff3262c3ffb44c387c967351221d48e178adb032724929f46
+size 6567

logs/events.out.tfevents.1713594075.1376c752d37a.9760.58 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:411418ac216d44061494f401acede03bec617323b15329c16314ff7f30207b16
+size 15328

logs/events.out.tfevents.1713594312.1376c752d37a.9760.59 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c225c7802a7117f78efe0413b6a2b0c5a505c515b7bc04c091b004fce025484
+size 6566

logs/events.out.tfevents.1713594347.1376c752d37a.9760.60 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a56bad7178fd15d9a32046dcac281f0bde891f44eea75aefec6cf9786cc89b8
+size 10216

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbec1f24b0dd6424b800ee43d82ad08f76324c77508985422e71a486f73e8ae5
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:4040c6ca96a2c15bdf2ff74f1b239c6f9435742bf73587eba68d44b6a1ab734e
 size 17549312

run-2/checkpoint-214/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a61439248471c62817c89323c5caa7b4350eb7c827fc7cd24810931f3852c1a
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:91b360bee990466984fb698a0ffcad6e057a232f7e1b6b33ab9bf2e2b704c904
 size 17549312

run-2/checkpoint-214/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e0f9fcb2d388bb05282f5a4689cf4c3ea085ee8b499953eafba6d798f5b7a3f
 size 35123898

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f2b0ab8d362426877965cce152dc2bf0ebd209219b6cd513cff47acfcbdbe9e
 size 35123898

run-2/checkpoint-214/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d4cb2348845564f50a1a5546a0d4bbac18f8f3ba05db9b86ec265c0fa8d0e64
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:afdbe5132d3e0d223635ff6bbe3337dce070c92e47612159f723c6739d0c83c3
 size 1064

run-2/checkpoint-214/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.7223198594024605,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-2/checkpoint-214",
   "epoch": 1.0,
   "eval_steps": 500,
@@ -10,37 +10,37 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 4.634866237640381,
-      "learning_rate": 0.00022230485769079655,
-      "loss": 0.4904,
       "step": 214
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7223198594024605,
-      "eval_f1": 0.4261501210653753,
-      "eval_loss": 0.456611692905426,
-      "eval_mcc": 0.31390897314151045,
-      "eval_precision": 0.6848249027237354,
-      "eval_recall": 0.3093145869947276,
-      "eval_runtime": 3.1485,
-      "eval_samples_per_second": 542.168,
-      "eval_steps_per_second": 17.151,
       "step": 214
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1926,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 9,
   "save_steps": 500,
   "total_flos": 524775664440.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.7932456774257669,
-    "learning_rate": 0.00025009296490214613,
-    "num_train_epochs": 9,
-    "temperature": 23
   }
 }

 {
+  "best_metric": 0.6666666666666666,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-2/checkpoint-214",
   "epoch": 1.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.8526851534843445,
+      "learning_rate": 3.348514285737282e-05,
+      "loss": 0.1338,
       "step": 214
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_f1": 0.0,
+      "eval_loss": 0.11370033770799637,
+      "eval_mcc": 0.0,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 3.16,
+      "eval_samples_per_second": 540.192,
+      "eval_steps_per_second": 17.089,
       "step": 214
     }
   ],
   "logging_steps": 500,
+  "max_steps": 856,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
   "save_steps": 500,
   "total_flos": 524775664440.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.1601102954722291,
+    "learning_rate": 4.464685714316376e-05,
+    "num_train_epochs": 4,
+    "temperature": 38
   }
 }

run-2/checkpoint-214/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89992d1c1b0b499ec7dee4b5a730ed684159d7afeb30eaab398451703cc62b58
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c0ef365fe50a6073968feea42d2758a897793d1d86a57928a5d31624c85a571
 size 5048

run-3/checkpoint-214/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06a4d6bc70e2d5e8a2a3750ec5030e64a4a1396309fd7cd2c1e4cdda62b2f0e8
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:e59bfb9a3843c20c0d11eed6db1a213c1ff77b97d5015f24cff091378407cf13
 size 17549312

run-3/checkpoint-214/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65560c37a015d2f1bd16e59b8e7908b24ad628feebd46427c18a6cc54c5cbe0d
 size 35123898

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ce1b8c9cea898903bab38e2fe6ed752f8ee16dd59364f80665e6c1a81714dc0
 size 35123898

run-3/checkpoint-214/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:621fabe3af1b7babf77acd5943b5bf3a0e4ad80bd636e511bd3fa3c04c3d8b9f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4587bd028004313ce34a98ed29db7c6b399fd8605802089960a4f4c58fd8dbea
 size 1064

run-3/checkpoint-214/trainer_state.json CHANGED Viewed

@@ -10,37 +10,37 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 2.1204113960266113,
-      "learning_rate": 1.1932465475413847e-05,
-      "loss": 0.4261,
       "step": 214
     },
     {
       "epoch": 1.0,
       "eval_accuracy": 0.6666666666666666,
       "eval_f1": 0.0,
-      "eval_loss": 0.4023595452308655,
       "eval_mcc": 0.0,
       "eval_precision": 0.0,
       "eval_recall": 0.0,
-      "eval_runtime": 3.137,
-      "eval_samples_per_second": 544.145,
-      "eval_steps_per_second": 17.214,
       "step": 214
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1070,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
   "total_flos": 524775664440.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.6118639206182097,
-    "learning_rate": 1.4915581844267308e-05,
-    "num_train_epochs": 5,
-    "temperature": 15
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.38364019989967346,
+      "learning_rate": 3.063781435548824e-05,
+      "loss": 0.0796,
       "step": 214
     },
     {
       "epoch": 1.0,
       "eval_accuracy": 0.6666666666666666,
       "eval_f1": 0.0,
+      "eval_loss": 0.054877836257219315,
       "eval_mcc": 0.0,
       "eval_precision": 0.0,
       "eval_recall": 0.0,
+      "eval_runtime": 3.1144,
+      "eval_samples_per_second": 548.1,
+      "eval_steps_per_second": 17.339,
       "step": 214
     }
   ],
   "logging_steps": 500,
+  "max_steps": 3852,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 18,
   "save_steps": 500,
   "total_flos": 524775664440.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.06448750556013427,
+    "learning_rate": 3.244003872934049e-05,
+    "num_train_epochs": 18,
+    "temperature": 34
   }
 }

run-3/checkpoint-214/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:621c87997eb03e02a37c6a3e61f45ff57c6fdae7e493961bdadb2e1be324da40
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:2974298f3dbf754c5d8751ea32f4e9bfa36e27ab58bf9e1d7f733ae1be63c4e3
 size 5048

run-3/checkpoint-3852/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-3/checkpoint-3852/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f2db463d704c5ac2d16b27f58d7b92623567dbb475e66b95ccc1433e9d4529c
+size 17549312

run-3/checkpoint-3852/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:85c98ff71eeaf7a4fc8c3a86b29e30cac41209d077c406d306c78bf3cd923a39
+size 35123898

run-3/checkpoint-3852/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac98c31de125c5253fb0a106018efb545a119b35d21358b33194f6abc5079871
+size 14308

run-3/checkpoint-3852/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f0ba2a23279c2a5c6295f07bbe3ebb6de15a74e3d93b6cc5dba2e9cf72e7175a
+size 1064

run-3/checkpoint-3852/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-3/checkpoint-3852/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-3/checkpoint-3852/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-3/checkpoint-3852/trainer_state.json ADDED Viewed

	@@ -0,0 +1,386 @@

+{
+  "best_metric": 0.6666666666666666,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-3/checkpoint-214",
+  "epoch": 18.0,
+  "eval_steps": 500,
+  "global_step": 3852,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.38364019989967346,
+      "learning_rate": 3.063781435548824e-05,
+      "loss": 0.0796,
+      "step": 214
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_f1": 0.0,
+      "eval_loss": 0.054877836257219315,
+      "eval_mcc": 0.0,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 3.1144,
+      "eval_samples_per_second": 548.1,
+      "eval_steps_per_second": 17.339,
+      "step": 214
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.44893428683280945,
+      "learning_rate": 2.883558998163599e-05,
+      "loss": 0.054,
+      "step": 428
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_f1": 0.0,
+      "eval_loss": 0.050605349242687225,
+      "eval_mcc": 0.0,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 3.2339,
+      "eval_samples_per_second": 527.845,
+      "eval_steps_per_second": 16.698,
+      "step": 428
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.47303804755210876,
+      "learning_rate": 2.7033365607783743e-05,
+      "loss": 0.0517,
+      "step": 642
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_f1": 0.0,
+      "eval_loss": 0.04936650022864342,
+      "eval_mcc": 0.0,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 3.1605,
+      "eval_samples_per_second": 540.104,
+      "eval_steps_per_second": 17.086,
+      "step": 642
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.5809402465820312,
+      "learning_rate": 2.523114123393149e-05,
+      "loss": 0.0508,
+      "step": 856
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_f1": 0.013864818024263433,
+      "eval_loss": 0.04913894087076187,
+      "eval_mcc": 0.024260699053001704,
+      "eval_precision": 0.5,
+      "eval_recall": 0.007029876977152899,
+      "eval_runtime": 3.8427,
+      "eval_samples_per_second": 444.219,
+      "eval_steps_per_second": 14.053,
+      "step": 856
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.7497197389602661,
+      "learning_rate": 2.3428916860079242e-05,
+      "loss": 0.0505,
+      "step": 1070
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_f1": 0.017271157167530225,
+      "eval_loss": 0.04886631295084953,
+      "eval_mcc": 0.027140265094376777,
+      "eval_precision": 0.5,
+      "eval_recall": 0.008787346221441126,
+      "eval_runtime": 3.1197,
+      "eval_samples_per_second": 547.164,
+      "eval_steps_per_second": 17.309,
+      "step": 1070
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.3793525993824005,
+      "learning_rate": 2.162669248622699e-05,
+      "loss": 0.0503,
+      "step": 1284
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.664323374340949,
+      "eval_f1": 0.017152658662092625,
+      "eval_loss": 0.048080265522003174,
+      "eval_mcc": 0.004592958330124466,
+      "eval_precision": 0.35714285714285715,
+      "eval_recall": 0.008787346221441126,
+      "eval_runtime": 3.3992,
+      "eval_samples_per_second": 502.172,
+      "eval_steps_per_second": 15.886,
+      "step": 1284
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.525617778301239,
+      "learning_rate": 1.9824468112374745e-05,
+      "loss": 0.05,
+      "step": 1498
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.664323374340949,
+      "eval_f1": 0.017152658662092625,
+      "eval_loss": 0.04796423017978668,
+      "eval_mcc": 0.004592958330124466,
+      "eval_precision": 0.35714285714285715,
+      "eval_recall": 0.008787346221441126,
+      "eval_runtime": 3.1569,
+      "eval_samples_per_second": 540.727,
+      "eval_steps_per_second": 17.106,
+      "step": 1498
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.456257700920105,
+      "learning_rate": 1.8022243738522493e-05,
+      "loss": 0.0497,
+      "step": 1712
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.6654950205038078,
+      "eval_f1": 0.017211703958691912,
+      "eval_loss": 0.04803091287612915,
+      "eval_mcc": 0.01487410293271824,
+      "eval_precision": 0.4166666666666667,
+      "eval_recall": 0.008787346221441126,
+      "eval_runtime": 3.822,
+      "eval_samples_per_second": 446.626,
+      "eval_steps_per_second": 14.129,
+      "step": 1712
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.4184946119785309,
+      "learning_rate": 1.6220019364670245e-05,
+      "loss": 0.0498,
+      "step": 1926
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_f1": 0.017271157167530225,
+      "eval_loss": 0.04849984124302864,
+      "eval_mcc": 0.027140265094376777,
+      "eval_precision": 0.5,
+      "eval_recall": 0.008787346221441126,
+      "eval_runtime": 3.1433,
+      "eval_samples_per_second": 543.052,
+      "eval_steps_per_second": 17.179,
+      "step": 1926
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.32953304052352905,
+      "learning_rate": 1.4417794990817994e-05,
+      "loss": 0.0494,
+      "step": 2140
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.664323374340949,
+      "eval_f1": 0.017152658662092625,
+      "eval_loss": 0.04773561656475067,
+      "eval_mcc": 0.004592958330124466,
+      "eval_precision": 0.35714285714285715,
+      "eval_recall": 0.008787346221441126,
+      "eval_runtime": 3.2081,
+      "eval_samples_per_second": 532.094,
+      "eval_steps_per_second": 16.833,
+      "step": 2140
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 0.2775495946407318,
+      "learning_rate": 1.2615570616965746e-05,
+      "loss": 0.0494,
+      "step": 2354
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.664323374340949,
+      "eval_f1": 0.017152658662092625,
+      "eval_loss": 0.04799096658825874,
+      "eval_mcc": 0.004592958330124466,
+      "eval_precision": 0.35714285714285715,
+      "eval_recall": 0.008787346221441126,
+      "eval_runtime": 3.142,
+      "eval_samples_per_second": 543.29,
+      "eval_steps_per_second": 17.187,
+      "step": 2354
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.2784470319747925,
+      "learning_rate": 1.0813346243113495e-05,
+      "loss": 0.0494,
+      "step": 2568
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.6660808435852372,
+      "eval_f1": 0.01724137931034483,
+      "eval_loss": 0.04788310080766678,
+      "eval_mcc": 0.020707884164064556,
+      "eval_precision": 0.45454545454545453,
+      "eval_recall": 0.008787346221441126,
+      "eval_runtime": 3.8964,
+      "eval_samples_per_second": 438.099,
+      "eval_steps_per_second": 13.859,
+      "step": 2568
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 0.7122122049331665,
+      "learning_rate": 9.011121869261247e-06,
+      "loss": 0.0493,
+      "step": 2782
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.6654950205038078,
+      "eval_f1": 0.017211703958691912,
+      "eval_loss": 0.04763857275247574,
+      "eval_mcc": 0.01487410293271824,
+      "eval_precision": 0.4166666666666667,
+      "eval_recall": 0.008787346221441126,
+      "eval_runtime": 3.1513,
+      "eval_samples_per_second": 541.682,
+      "eval_steps_per_second": 17.136,
+      "step": 2782
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.3367031216621399,
+      "learning_rate": 7.208897495408997e-06,
+      "loss": 0.0491,
+      "step": 2996
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.6649091974223784,
+      "eval_f1": 0.01718213058419244,
+      "eval_loss": 0.0474877767264843,
+      "eval_mcc": 0.009529862152017439,
+      "eval_precision": 0.38461538461538464,
+      "eval_recall": 0.008787346221441126,
+      "eval_runtime": 3.2218,
+      "eval_samples_per_second": 529.831,
+      "eval_steps_per_second": 16.761,
+      "step": 2996
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.6209991574287415,
+      "learning_rate": 5.406673121556748e-06,
+      "loss": 0.049,
+      "step": 3210
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.6649091974223784,
+      "eval_f1": 0.01718213058419244,
+      "eval_loss": 0.04748029261827469,
+      "eval_mcc": 0.009529862152017439,
+      "eval_precision": 0.38461538461538464,
+      "eval_recall": 0.008787346221441126,
+      "eval_runtime": 3.1605,
+      "eval_samples_per_second": 540.101,
+      "eval_steps_per_second": 17.086,
+      "step": 3210
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.8616418838500977,
+      "learning_rate": 3.6044487477044986e-06,
+      "loss": 0.0491,
+      "step": 3424
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.664323374340949,
+      "eval_f1": 0.017152658662092625,
+      "eval_loss": 0.04751123487949371,
+      "eval_mcc": 0.004592958330124466,
+      "eval_precision": 0.35714285714285715,
+      "eval_recall": 0.008787346221441126,
+      "eval_runtime": 3.9087,
+      "eval_samples_per_second": 436.72,
+      "eval_steps_per_second": 13.815,
+      "step": 3424
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 0.38889187574386597,
+      "learning_rate": 1.8022243738522493e-06,
+      "loss": 0.0493,
+      "step": 3638
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.6649091974223784,
+      "eval_f1": 0.01718213058419244,
+      "eval_loss": 0.0475541353225708,
+      "eval_mcc": 0.009529862152017439,
+      "eval_precision": 0.38461538461538464,
+      "eval_recall": 0.008787346221441126,
+      "eval_runtime": 3.1517,
+      "eval_samples_per_second": 541.62,
+      "eval_steps_per_second": 17.134,
+      "step": 3638
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 0.3475455343723297,
+      "learning_rate": 0.0,
+      "loss": 0.0489,
+      "step": 3852
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.6649091974223784,
+      "eval_f1": 0.01718213058419244,
+      "eval_loss": 0.047414712607860565,
+      "eval_mcc": 0.009529862152017439,
+      "eval_precision": 0.38461538461538464,
+      "eval_recall": 0.008787346221441126,
+      "eval_runtime": 3.2036,
+      "eval_samples_per_second": 532.83,
+      "eval_steps_per_second": 16.856,
+      "step": 3852
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 3852,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 18,
+  "save_steps": 500,
+  "total_flos": 9445961959920.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.06448750556013427,
+    "learning_rate": 3.244003872934049e-05,
+    "num_train_epochs": 18,
+    "temperature": 34
+  }
+}

run-3/checkpoint-3852/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2974298f3dbf754c5d8751ea32f4e9bfa36e27ab58bf9e1d7f733ae1be63c4e3
+size 5048

run-3/checkpoint-3852/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-4/checkpoint-214/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71d71cc0170d97b0d4b7e7466c630a9d9ff3ee87141ddf749be8d1e2e1d8a609
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c83e7f31749d1db762720fa59ec35fd79e6cea9e91b79fca07f07a447ae4f58
 size 17549312

run-4/checkpoint-214/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30f43b455266116636b8f0a7f1a17b3274aea5604e913d74557f221fc1c81296
 size 35123898

 version https://git-lfs.github.com/spec/v1
+oid sha256:029bc1a70c1c7bd15148c3bcf6cd9f3c8825cc89954ba2b975896d9303c6d3b0
 size 35123898

run-4/checkpoint-214/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:043caffb6c1012e63ca62bbd130191c7f91382166fb0be80e0dc0e0eaac22952
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bb7330760cad4ea8091ac008b3e308e81d33db12960799335b5b09551e25daf
 size 1064

run-4/checkpoint-214/trainer_state.json CHANGED Viewed

@@ -10,37 +10,37 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 5.794419765472412,
-      "learning_rate": 3.974483565917368e-05,
-      "loss": 0.5313,
       "step": 214
     },
     {
       "epoch": 1.0,
       "eval_accuracy": 0.6666666666666666,
-      "eval_f1": 0.0035026269702276708,
-      "eval_loss": 0.49643149971961975,
-      "eval_mcc": 0.01210898699241207,
-      "eval_precision": 0.5,
-      "eval_recall": 0.0017574692442882249,
-      "eval_runtime": 3.1332,
-      "eval_samples_per_second": 544.813,
-      "eval_steps_per_second": 17.235,
       "step": 214
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1498,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
   "save_steps": 500,
   "total_flos": 524775664440.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.8274705871724447,
-    "learning_rate": 4.6368974935702624e-05,
-    "num_train_epochs": 7,
-    "temperature": 26
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.9788228869438171,
+      "learning_rate": 9.270473337157551e-06,
+      "loss": 0.2545,
       "step": 214
     },
     {
       "epoch": 1.0,
       "eval_accuracy": 0.6666666666666666,
+      "eval_f1": 0.0,
+      "eval_loss": 0.22835808992385864,
+      "eval_mcc": 0.0,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 3.1407,
+      "eval_samples_per_second": 543.501,
+      "eval_steps_per_second": 17.193,
       "step": 214
     }
   ],
   "logging_steps": 500,
+  "max_steps": 428,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 500,
   "total_flos": 524775664440.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.3287651702725557,
+    "learning_rate": 1.8540946674315103e-05,
+    "num_train_epochs": 2,
+    "temperature": 24
   }
 }

run-4/checkpoint-214/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a66c3611aaa8b227e5b872f0aa4e2f90b172c191cd1eb23826a153b2caba18a
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf88101ef410a660c50d8f7a9f32103487a0921f9d4b081d4ef174140c5aaa94
 size 5048

run-5/checkpoint-2782/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-5/checkpoint-2782/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:331bbba94eb6a1006afae76a1d1473d7d1cd9e31966fb7f60a0c22edfa9f5f4f
+size 17549312

run-5/checkpoint-2782/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4da62a3c2e8fb2d8738fa85c112304f7e6cdf85b0ed9557393b7c7697575cdd3
+size 35123898

run-5/checkpoint-2782/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48b220e5ea4ac040566c4076b4aa2ab507f558ff52391b72ff0465738494290d
+size 14308

run-5/checkpoint-2782/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2e008df3d505ab700cf418f5978e6fe4cb486b1718c4d14d2b1b7199d6b89cf
+size 1064

run-5/checkpoint-2782/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-5/checkpoint-2782/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-5/checkpoint-2782/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-5/checkpoint-2782/trainer_state.json ADDED Viewed

	@@ -0,0 +1,286 @@

+{
+  "best_metric": 0.7217340363210311,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-5/checkpoint-2782",
+  "epoch": 13.0,
+  "eval_steps": 500,
+  "global_step": 2782,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.161219835281372,
+      "learning_rate": 0.0001946740481873714,
+      "loss": 0.2896,
+      "step": 214
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_f1": 0.0,
+      "eval_loss": 0.27429890632629395,
+      "eval_mcc": 0.0,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 3.1537,
+      "eval_samples_per_second": 541.276,
+      "eval_steps_per_second": 17.123,
+      "step": 214
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.0970500707626343,
+      "learning_rate": 0.00017969912140372742,
+      "loss": 0.2734,
+      "step": 428
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_f1": 0.006980802792321117,
+      "eval_loss": 0.2710207402706146,
+      "eval_mcc": 0.01713474628469157,
+      "eval_precision": 0.5,
+      "eval_recall": 0.0035149384885764497,
+      "eval_runtime": 3.9301,
+      "eval_samples_per_second": 434.342,
+      "eval_steps_per_second": 13.74,
+      "step": 428
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.7171841859817505,
+      "learning_rate": 0.0001647241946200835,
+      "loss": 0.2685,
+      "step": 642
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.6678383128295254,
+      "eval_f1": 0.010471204188481676,
+      "eval_loss": 0.27606382966041565,
+      "eval_mcc": 0.042836865711728934,
+      "eval_precision": 0.75,
+      "eval_recall": 0.005272407732864675,
+      "eval_runtime": 3.1441,
+      "eval_samples_per_second": 542.926,
+      "eval_steps_per_second": 17.175,
+      "step": 642
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 1.334978699684143,
+      "learning_rate": 0.00014974926783643954,
+      "loss": 0.266,
+      "step": 856
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.6795547744581136,
+      "eval_f1": 0.10180623973727422,
+      "eval_loss": 0.26485475897789,
+      "eval_mcc": 0.14513196526792949,
+      "eval_precision": 0.775,
+      "eval_recall": 0.054481546572934976,
+      "eval_runtime": 3.1938,
+      "eval_samples_per_second": 534.478,
+      "eval_steps_per_second": 16.908,
+      "step": 856
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 1.377930998802185,
+      "learning_rate": 0.0001347743410527956,
+      "loss": 0.2643,
+      "step": 1070
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.6918570591681312,
+      "eval_f1": 0.18827160493827164,
+      "eval_loss": 0.26378217339515686,
+      "eval_mcc": 0.20505841470507494,
+      "eval_precision": 0.7721518987341772,
+      "eval_recall": 0.10720562390158173,
+      "eval_runtime": 3.1292,
+      "eval_samples_per_second": 545.505,
+      "eval_steps_per_second": 17.257,
+      "step": 1070
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 1.2771140336990356,
+      "learning_rate": 0.00011979941426915163,
+      "loss": 0.263,
+      "step": 1284
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.6936145284124194,
+      "eval_f1": 0.18662519440124417,
+      "eval_loss": 0.26149189472198486,
+      "eval_mcc": 0.2156164618376391,
+      "eval_precision": 0.8108108108108109,
+      "eval_recall": 0.1054481546572935,
+      "eval_runtime": 3.2914,
+      "eval_samples_per_second": 518.626,
+      "eval_steps_per_second": 16.406,
+      "step": 1284
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 1.073453426361084,
+      "learning_rate": 0.00010482448748550767,
+      "loss": 0.2612,
+      "step": 1498
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.6994727592267135,
+      "eval_f1": 0.21439509954058195,
+      "eval_loss": 0.2620287537574768,
+      "eval_mcc": 0.24129962353457945,
+      "eval_precision": 0.8333333333333334,
+      "eval_recall": 0.12302284710017575,
+      "eval_runtime": 3.1567,
+      "eval_samples_per_second": 540.751,
+      "eval_steps_per_second": 17.106,
+      "step": 1498
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 1.2691621780395508,
+      "learning_rate": 8.984956070186371e-05,
+      "loss": 0.2597,
+      "step": 1712
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.69302870533099,
+      "eval_f1": 0.17088607594936708,
+      "eval_loss": 0.2611652910709381,
+      "eval_mcc": 0.21751991027491313,
+      "eval_precision": 0.8571428571428571,
+      "eval_recall": 0.09490333919156414,
+      "eval_runtime": 3.2468,
+      "eval_samples_per_second": 525.752,
+      "eval_steps_per_second": 16.632,
+      "step": 1712
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 1.0226393938064575,
+      "learning_rate": 7.487463391821977e-05,
+      "loss": 0.2597,
+      "step": 1926
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.6977152899824253,
+      "eval_f1": 0.19626168224299068,
+      "eval_loss": 0.2611730098724365,
+      "eval_mcc": 0.2374955820778862,
+      "eval_precision": 0.863013698630137,
+      "eval_recall": 0.11072056239015818,
+      "eval_runtime": 3.1639,
+      "eval_samples_per_second": 539.53,
+      "eval_steps_per_second": 17.068,
+      "step": 1926
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 1.0377492904663086,
+      "learning_rate": 5.989970713457581e-05,
+      "loss": 0.2565,
+      "step": 2140
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.7193907439953134,
+      "eval_f1": 0.32248939179632247,
+      "eval_loss": 0.260220468044281,
+      "eval_mcc": 0.310001756502818,
+      "eval_precision": 0.8260869565217391,
+      "eval_recall": 0.20035149384885764,
+      "eval_runtime": 3.2066,
+      "eval_samples_per_second": 532.341,
+      "eval_steps_per_second": 16.84,
+      "step": 2140
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 1.2514437437057495,
+      "learning_rate": 4.4924780350931855e-05,
+      "loss": 0.2555,
+      "step": 2354
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.700058582308143,
+      "eval_f1": 0.20743034055727552,
+      "eval_loss": 0.26075002551078796,
+      "eval_mcc": 0.2474956228703306,
+      "eval_precision": 0.8701298701298701,
+      "eval_recall": 0.11775043936731107,
+      "eval_runtime": 3.1394,
+      "eval_samples_per_second": 543.734,
+      "eval_steps_per_second": 17.201,
+      "step": 2354
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.8049026727676392,
+      "learning_rate": 2.9949853567287906e-05,
+      "loss": 0.2544,
+      "step": 2568
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.715875805506737,
+      "eval_f1": 0.31593794076163606,
+      "eval_loss": 0.2587771415710449,
+      "eval_mcc": 0.29589835954792404,
+      "eval_precision": 0.8,
+      "eval_recall": 0.1968365553602812,
+      "eval_runtime": 3.3501,
+      "eval_samples_per_second": 509.539,
+      "eval_steps_per_second": 16.119,
+      "step": 2568
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 2.94110369682312,
+      "learning_rate": 1.4974926783643953e-05,
+      "loss": 0.2544,
+      "step": 2782
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.7217340363210311,
+      "eval_f1": 0.3356643356643356,
+      "eval_loss": 0.2589167356491089,
+      "eval_mcc": 0.31697199705587376,
+      "eval_precision": 0.821917808219178,
+      "eval_recall": 0.210896309314587,
+      "eval_runtime": 3.165,
+      "eval_samples_per_second": 539.337,
+      "eval_steps_per_second": 17.062,
+      "step": 2782
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2996,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 14,
+  "save_steps": 500,
+  "total_flos": 6822083637720.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.43581262355237016,
+    "learning_rate": 0.00020964897497101535,
+    "num_train_epochs": 14,
+    "temperature": 35
+  }
+}

run-5/checkpoint-2782/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89392d1670280eb2d3bf633d0da5562575ac3ebc9583dacddc332092c977234d
+size 5048

run-5/checkpoint-2782/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-5/checkpoint-2996/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-5/checkpoint-2996/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c3315a30671a1f6e5e8a7bfe549057fee83be716b89b06a9d1c73518097673e
+size 17549312

run-5/checkpoint-2996/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70c7996f14d3ea31a3af30df85437fddf69d2a04bf0666fb4a0826c0b502355c
+size 35123898

run-5/checkpoint-2996/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9426185b39d441044107ee0bb63490b78521dba8c90fe388accfdd0dbcbf9fec
+size 14308

run-5/checkpoint-2996/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c21195eb47c24552f665c11538dfa091aef97aa8bc90b5acf0569f770ed56453
+size 1064

run-5/checkpoint-2996/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}