xuancoblab2023 commited on Mar 24, 2024

Commit

0edd31d

verified ·

1 Parent(s): 6bec44f

Training in progress, epoch 1

Browse files

Files changed (36) hide show

logs/events.out.tfevents.1711279866.73e3a81c01ef.4225.7 +2 -2
logs/events.out.tfevents.1711281272.73e3a81c01ef.4225.8 +3 -0
logs/events.out.tfevents.1711281553.73e3a81c01ef.4225.9 +3 -0
logs/events.out.tfevents.1711281836.73e3a81c01ef.4225.10 +3 -0
logs/events.out.tfevents.1711282118.73e3a81c01ef.4225.11 +3 -0
model.safetensors +1 -1
run-11/checkpoint-192/config.json +1 -1
run-11/checkpoint-192/model.safetensors +1 -1
run-11/checkpoint-192/optimizer.pt +1 -1
run-11/checkpoint-192/rng_state.pth +1 -1
run-11/checkpoint-192/scheduler.pt +1 -1
run-11/checkpoint-192/trainer_state.json +22 -39
run-11/checkpoint-192/training_args.bin +2 -2
run-7/checkpoint-768/config.json +34 -0
run-7/checkpoint-768/model.safetensors +3 -0
run-7/checkpoint-768/optimizer.pt +3 -0
run-7/checkpoint-768/rng_state.pth +3 -0
run-7/checkpoint-768/scheduler.pt +3 -0
run-7/checkpoint-768/special_tokens_map.json +7 -0
run-7/checkpoint-768/tokenizer.json +0 -0
run-7/checkpoint-768/tokenizer_config.json +57 -0
run-7/checkpoint-768/trainer_state.json +107 -0
run-7/checkpoint-768/training_args.bin +3 -0
run-7/checkpoint-768/vocab.txt +0 -0
run-7/checkpoint-960/config.json +34 -0
run-7/checkpoint-960/model.safetensors +3 -0
run-7/checkpoint-960/optimizer.pt +3 -0
run-7/checkpoint-960/rng_state.pth +3 -0
run-7/checkpoint-960/scheduler.pt +3 -0
run-7/checkpoint-960/special_tokens_map.json +7 -0
run-7/checkpoint-960/tokenizer.json +0 -0
run-7/checkpoint-960/tokenizer_config.json +57 -0
run-7/checkpoint-960/trainer_state.json +127 -0
run-7/checkpoint-960/training_args.bin +3 -0
run-7/checkpoint-960/vocab.txt +0 -0
training_args.bin +1 -1

logs/events.out.tfevents.1711279866.73e3a81c01ef.4225.7 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1234833fbb14939f01e79fe87b7f9783c247ad8947df85e104c1ca7e7f16731f
-size 6137

 version https://git-lfs.github.com/spec/v1
+oid sha256:43bacfa17f423ed9514e4687755dd06db580aee69539c771d024b23b4331c1e7
+size 8681

logs/events.out.tfevents.1711281272.73e3a81c01ef.4225.8 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1fa570b8fc7b13064ff2f8aee7d16cfc3c4fb96a9d0966c9ee10cc142a180e7b
+size 5408

logs/events.out.tfevents.1711281553.73e3a81c01ef.4225.9 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a04e7f7233b5fea393de89649243fc0759d1da2f2ec39ea0653e6b2a165cbede
+size 5407

logs/events.out.tfevents.1711281836.73e3a81c01ef.4225.10 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67385223ceb360e601aec522105a8b64231b70b747d43255ad8cef8e941a642b
+size 5407

logs/events.out.tfevents.1711282118.73e3a81c01ef.4225.11 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9672ca8369db0d1b2e24fce0a475388b89cbd90363b79d428c879e7a8976af4b
+size 5406

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e22ddc56fade1c63313df2876b26f25f9f85cf13e53de32585e381c684787a6f
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:c69f969bceed1b54c23220f18ec5897c0ce3f2a2ad6c45a39a124fb62daf1064
 size 17549312

run-11/checkpoint-192/config.json CHANGED Viewed

@@ -27,7 +27,7 @@
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
-  "transformers_version": "4.38.2",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
+  "transformers_version": "4.39.1",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

run-11/checkpoint-192/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de23d2cedae4958efe60248e8338ab58ce8571f49aa7e111838779e574258cd9
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:c69f969bceed1b54c23220f18ec5897c0ce3f2a2ad6c45a39a124fb62daf1064
 size 17549312

run-11/checkpoint-192/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b6a898431dcbcdbba5f39830a6aa09bde9420adfda571675afd353db3569591
 size 35122746

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ae030e9c172da19f6cfa507d0bd3a584c85b3c8ca0a979ff0f925bb9f42599f
 size 35122746

run-11/checkpoint-192/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c58c0607d97c986e9d4c30b0aa74b33350e0c7e86978aaaaadda4ebb78f21ad
 size 14054

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee09ea0d216727b799a80771850b95d7d61b646360702c64b2ec889cdc725399
 size 14054

run-11/checkpoint-192/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e53bc242a1c53c5d1389b134bb22523c02bd39246b127f05cf3867e83db9ae5f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4588944385a300236ccfadc20ebe089890fafd4b348500772c7eb9e9b390fe56
 size 1064

run-11/checkpoint-192/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.8023483365949119,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-11/checkpoint-192",
-  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 192,
   "is_hyper_param_search": true,
@@ -10,55 +10,38 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 8.867341995239258,
-      "learning_rate": 0.00047267095070335774,
-      "loss": 0.5752,
-      "step": 96
-    },
-    {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7514677103718199,
-      "eval_f1": 0.765249537892791,
-      "eval_loss": 0.501445472240448,
-      "eval_precision": 0.7250437828371279,
-      "eval_recall": 0.8101761252446184,
-      "eval_runtime": 30.0696,
-      "eval_samples_per_second": 33.988,
-      "eval_steps_per_second": 1.064,
-      "step": 96
-    },
-    {
-      "epoch": 2.0,
-      "grad_norm": 5.714812755584717,
-      "learning_rate": 0.0,
-      "loss": 0.4797,
       "step": 192
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.8023483365949119,
-      "eval_f1": 0.8246527777777778,
-      "eval_loss": 0.4407924711704254,
-      "eval_precision": 0.7410296411856474,
-      "eval_recall": 0.9295499021526419,
-      "eval_runtime": 29.5981,
-      "eval_samples_per_second": 34.529,
-      "eval_steps_per_second": 1.081,
       "step": 192
     }
   ],
   "logging_steps": 500,
-  "max_steps": 192,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
-  "total_flos": 471390394560.0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.9981740599737018,
-    "learning_rate": 0.0009453419014067155,
     "num_train_epochs": 2,
-    "temperature": 30
   }
 }

 {
+  "best_metric": 0.7465753424657534,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-11/checkpoint-192",
+  "epoch": 1.0,
   "eval_steps": 500,
   "global_step": 192,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 3.698505163192749,
+      "learning_rate": 0.0004729463641993846,
+      "loss": 0.4978,
       "step": 192
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7465753424657534,
+      "eval_f1": 0.7821698906644239,
+      "eval_loss": 0.46408411860466003,
+      "eval_mcc": 0.5218028809356926,
+      "eval_precision": 0.6858407079646017,
+      "eval_recall": 0.9099804305283757,
+      "eval_runtime": 66.6598,
+      "eval_samples_per_second": 15.332,
+      "eval_steps_per_second": 0.48,
       "step": 192
     }
   ],
   "logging_steps": 500,
+  "max_steps": 384,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
+  "total_flos": 235695197280.0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.7646810195593648,
+    "learning_rate": 0.0009458927283987692,
     "num_train_epochs": 2,
+    "per_device_train_batch_size": 16,
+    "temperature": 27
   }
 }

run-11/checkpoint-192/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7ad2a3b631ed3da14471b5ac8c719b5c11baabf1e37c311322e42839c08f1d3
-size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:65c6400aa5bf6c65e8a3c85d0e6533fdb72aa1696c70cf3415b3377fc76b815a
+size 4984

run-7/checkpoint-768/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-7/checkpoint-768/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff07c35ed40d8692a930713a3298b12e5969eec5d1d939e5b260fa5c29c45b5f
+size 17549312

run-7/checkpoint-768/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1adff4eade2172bf3f32d11602372b08222a47c7f12ed3eeb4a754de9d2240e
+size 35122746

run-7/checkpoint-768/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ed72394efd052c27a025cbbb902950bb9336778a32545e8b891d3c9c80c35d9
+size 14054

run-7/checkpoint-768/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:99cfd12f1207b92d5c3ba6a841592bd08ea4c57af94d3fbfc4fd74ca4011f72f
+size 1064

run-7/checkpoint-768/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-7/checkpoint-768/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-7/checkpoint-768/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-7/checkpoint-768/trainer_state.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "best_metric": 0.7915851272015656,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-7/checkpoint-768",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 768,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.15159010887146,
+      "learning_rate": 2.5124348703312046e-05,
+      "loss": 0.6503,
+      "step": 192
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6908023483365949,
+      "eval_f1": 0.6623931623931624,
+      "eval_loss": 0.6152858734130859,
+      "eval_mcc": 0.38712657099283027,
+      "eval_precision": 0.7294117647058823,
+      "eval_recall": 0.6066536203522505,
+      "eval_runtime": 66.1991,
+      "eval_samples_per_second": 15.438,
+      "eval_steps_per_second": 0.483,
+      "step": 192
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 6.791621208190918,
+      "learning_rate": 1.884326152748403e-05,
+      "loss": 0.5656,
+      "step": 384
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.761252446183953,
+      "eval_f1": 0.7761467889908258,
+      "eval_loss": 0.5115423202514648,
+      "eval_mcc": 0.5271935842180233,
+      "eval_precision": 0.7305699481865285,
+      "eval_recall": 0.8277886497064579,
+      "eval_runtime": 66.4101,
+      "eval_samples_per_second": 15.389,
+      "eval_steps_per_second": 0.482,
+      "step": 384
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 3.52553653717041,
+      "learning_rate": 1.2562174351656023e-05,
+      "loss": 0.512,
+      "step": 576
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.786692759295499,
+      "eval_f1": 0.8080985915492958,
+      "eval_loss": 0.48333269357681274,
+      "eval_mcc": 0.5882099387037968,
+      "eval_precision": 0.7344,
+      "eval_recall": 0.898238747553816,
+      "eval_runtime": 66.6309,
+      "eval_samples_per_second": 15.338,
+      "eval_steps_per_second": 0.48,
+      "step": 576
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 6.329979419708252,
+      "learning_rate": 6.281087175828012e-06,
+      "loss": 0.494,
+      "step": 768
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7915851272015656,
+      "eval_f1": 0.8136482939632547,
+      "eval_loss": 0.474974662065506,
+      "eval_mcc": 0.6002406744389225,
+      "eval_precision": 0.7357594936708861,
+      "eval_recall": 0.9099804305283757,
+      "eval_runtime": 66.491,
+      "eval_samples_per_second": 15.37,
+      "eval_steps_per_second": 0.481,
+      "step": 768
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 960,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 942780789120.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.9315469293191833,
+    "learning_rate": 3.1405435879140055e-05,
+    "num_train_epochs": 5,
+    "per_device_train_batch_size": 16,
+    "temperature": 39
+  }
+}

run-7/checkpoint-768/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f89760f65037c9d8e099483ddc28ec2c1932369cfd91fa114c15b924cd79d07
+size 4984

run-7/checkpoint-768/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-7/checkpoint-960/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-7/checkpoint-960/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5be0009a5bbcaa40bb8311a47b2be03d68d01518db8cc658453393a828eafb87
+size 17549312

run-7/checkpoint-960/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aedfeccf03377ebf9fa0520758082ff7b94e449ebdc60329b1d8256682eace74
+size 35122746

run-7/checkpoint-960/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0f708bee926375ebbf58f1558008811afac316edcd7c7c1acf7807ef08c4de0
+size 14054

run-7/checkpoint-960/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d156a0b9868c8eca9d0934e1d69d3f73c4a9fc2353e2803001f7bd7a4993dfa
+size 1064

run-7/checkpoint-960/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-7/checkpoint-960/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-7/checkpoint-960/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-7/checkpoint-960/trainer_state.json ADDED Viewed

	@@ -0,0 +1,127 @@

+{
+  "best_metric": 0.7915851272015656,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-7/checkpoint-768",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 960,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.15159010887146,
+      "learning_rate": 2.5124348703312046e-05,
+      "loss": 0.6503,
+      "step": 192
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6908023483365949,
+      "eval_f1": 0.6623931623931624,
+      "eval_loss": 0.6152858734130859,
+      "eval_mcc": 0.38712657099283027,
+      "eval_precision": 0.7294117647058823,
+      "eval_recall": 0.6066536203522505,
+      "eval_runtime": 66.1991,
+      "eval_samples_per_second": 15.438,
+      "eval_steps_per_second": 0.483,
+      "step": 192
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 6.791621208190918,
+      "learning_rate": 1.884326152748403e-05,
+      "loss": 0.5656,
+      "step": 384
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.761252446183953,
+      "eval_f1": 0.7761467889908258,
+      "eval_loss": 0.5115423202514648,
+      "eval_mcc": 0.5271935842180233,
+      "eval_precision": 0.7305699481865285,
+      "eval_recall": 0.8277886497064579,
+      "eval_runtime": 66.4101,
+      "eval_samples_per_second": 15.389,
+      "eval_steps_per_second": 0.482,
+      "step": 384
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 3.52553653717041,
+      "learning_rate": 1.2562174351656023e-05,
+      "loss": 0.512,
+      "step": 576
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.786692759295499,
+      "eval_f1": 0.8080985915492958,
+      "eval_loss": 0.48333269357681274,
+      "eval_mcc": 0.5882099387037968,
+      "eval_precision": 0.7344,
+      "eval_recall": 0.898238747553816,
+      "eval_runtime": 66.6309,
+      "eval_samples_per_second": 15.338,
+      "eval_steps_per_second": 0.48,
+      "step": 576
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 6.329979419708252,
+      "learning_rate": 6.281087175828012e-06,
+      "loss": 0.494,
+      "step": 768
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7915851272015656,
+      "eval_f1": 0.8136482939632547,
+      "eval_loss": 0.474974662065506,
+      "eval_mcc": 0.6002406744389225,
+      "eval_precision": 0.7357594936708861,
+      "eval_recall": 0.9099804305283757,
+      "eval_runtime": 66.491,
+      "eval_samples_per_second": 15.37,
+      "eval_steps_per_second": 0.481,
+      "step": 768
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 8.863868713378906,
+      "learning_rate": 0.0,
+      "loss": 0.4871,
+      "step": 960
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7710371819960861,
+      "eval_f1": 0.802030456852792,
+      "eval_loss": 0.4800633490085602,
+      "eval_mcc": 0.5707750105508812,
+      "eval_precision": 0.706408345752608,
+      "eval_recall": 0.9275929549902152,
+      "eval_runtime": 66.5281,
+      "eval_samples_per_second": 15.362,
+      "eval_steps_per_second": 0.481,
+      "step": 960
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 960,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 1178475986400.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.9315469293191833,
+    "learning_rate": 3.1405435879140055e-05,
+    "num_train_epochs": 5,
+    "per_device_train_batch_size": 16,
+    "temperature": 39
+  }
+}

run-7/checkpoint-960/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f89760f65037c9d8e099483ddc28ec2c1932369cfd91fa114c15b924cd79d07
+size 4984

run-7/checkpoint-960/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f89760f65037c9d8e099483ddc28ec2c1932369cfd91fa114c15b924cd79d07
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:65c6400aa5bf6c65e8a3c85d0e6533fdb72aa1696c70cf3415b3377fc76b815a
 size 4984