End of training

Browse files

Files changed (7) hide show

README.md +5 -5
all_results.json +19 -0
egy_training_log.txt +2 -0
eval_results.json +13 -0
train_results.json +9 -0
train_vs_val_loss.png +0 -0
trainer_state.json +165 -0

README.md CHANGED Viewed

@@ -18,11 +18,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [aubmindlab/aragpt2-large](https://huggingface.co/aubmindlab/aragpt2-large) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2092
-- Bleu: 0.1137
-- Rouge1: 0.4386
-- Rouge2: 0.2117
-- Rougel: 0.4361
 ## Model description

 This model is a fine-tuned version of [aubmindlab/aragpt2-large](https://huggingface.co/aubmindlab/aragpt2-large) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1727
+- Bleu: 0.0581
+- Rouge1: 0.3533
+- Rouge2: 0.1255
+- Rougel: 0.3493
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+    "epoch": 6.0,
+    "eval_bleu": 0.0580598821559071,
+    "eval_loss": 0.17270471155643463,
+    "eval_rouge1": 0.3533239818405131,
+    "eval_rouge2": 0.1254672546781218,
+    "eval_rougeL": 0.3492871461298215,
+    "eval_runtime": 400.5995,
+    "eval_samples": 2113,
+    "eval_samples_per_second": 5.275,
+    "eval_steps_per_second": 1.321,
+    "perplexity": 1.1885150984889004,
+    "total_flos": 2.207164045197312e+17,
+    "train_loss": 0.062080234660581754,
+    "train_runtime": 24111.8135,
+    "train_samples": 8452,
+    "train_samples_per_second": 7.011,
+    "train_steps_per_second": 1.753
+}

egy_training_log.txt CHANGED Viewed

@@ -702,3 +702,5 @@ INFO:root:Epoch 5.0: Train Loss = 0.0328, Eval Loss = 0.19304993748664856
 INFO:absl:Using default tokenizer.
 INFO:root:Epoch 6.0: Train Loss = 0.0249, Eval Loss = 0.20080772042274475
 INFO:absl:Using default tokenizer.

 INFO:absl:Using default tokenizer.
 INFO:root:Epoch 6.0: Train Loss = 0.0249, Eval Loss = 0.20080772042274475
 INFO:absl:Using default tokenizer.
+INFO:__main__:*** Evaluate ***
+INFO:absl:Using default tokenizer.

eval_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 6.0,
+    "eval_bleu": 0.0580598821559071,
+    "eval_loss": 0.17270471155643463,
+    "eval_rouge1": 0.3533239818405131,
+    "eval_rouge2": 0.1254672546781218,
+    "eval_rougeL": 0.3492871461298215,
+    "eval_runtime": 400.5995,
+    "eval_samples": 2113,
+    "eval_samples_per_second": 5.275,
+    "eval_steps_per_second": 1.321,
+    "perplexity": 1.1885150984889004
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 6.0,
+    "total_flos": 2.207164045197312e+17,
+    "train_loss": 0.062080234660581754,
+    "train_runtime": 24111.8135,
+    "train_samples": 8452,
+    "train_samples_per_second": 7.011,
+    "train_steps_per_second": 1.753
+}

train_vs_val_loss.png ADDED Viewed

trainer_state.json ADDED Viewed

	@@ -0,0 +1,165 @@

+{
+  "best_metric": 0.17270471155643463,
+  "best_model_checkpoint": "/home/iais_marenpielka/Bouthaina/res_nw_irq_aragpt2-large/checkpoint-2113",
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 12678,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.3583737909793854,
+      "learning_rate": 4.806872605363985e-05,
+      "loss": 0.1933,
+      "step": 2113
+    },
+    {
+      "epoch": 1.0,
+      "eval_bleu": 0.0580598821559071,
+      "eval_loss": 0.17270471155643463,
+      "eval_rouge1": 0.3533239818405131,
+      "eval_rouge2": 0.1254672546781218,
+      "eval_rougeL": 0.3492871461298215,
+      "eval_runtime": 400.5509,
+      "eval_samples_per_second": 5.275,
+      "eval_steps_per_second": 1.321,
+      "step": 2113
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.3867155611515045,
+      "learning_rate": 4.553879310344828e-05,
+      "loss": 0.0577,
+      "step": 4226
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu": 0.08704911443587947,
+      "eval_loss": 0.1791187822818756,
+      "eval_rouge1": 0.40363710077719234,
+      "eval_rouge2": 0.17460125985277208,
+      "eval_rougeL": 0.4004307662820009,
+      "eval_runtime": 400.2099,
+      "eval_samples_per_second": 5.28,
+      "eval_steps_per_second": 1.322,
+      "step": 4226
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.3498200476169586,
+      "learning_rate": 4.3008860153256705e-05,
+      "loss": 0.0436,
+      "step": 6339
+    },
+    {
+      "epoch": 3.0,
+      "eval_bleu": 0.0989456627385457,
+      "eval_loss": 0.17942094802856445,
+      "eval_rouge1": 0.42636848028547636,
+      "eval_rouge2": 0.19375467031127153,
+      "eval_rougeL": 0.42385903466341546,
+      "eval_runtime": 400.3559,
+      "eval_samples_per_second": 5.278,
+      "eval_steps_per_second": 1.321,
+      "step": 6339
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.5500528812408447,
+      "learning_rate": 4.0478927203065134e-05,
+      "loss": 0.0328,
+      "step": 8452
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu": 0.10424332616151948,
+      "eval_loss": 0.19304993748664856,
+      "eval_rouge1": 0.4349668747641071,
+      "eval_rouge2": 0.20263993471878267,
+      "eval_rougeL": 0.43152434846368415,
+      "eval_runtime": 278.7893,
+      "eval_samples_per_second": 7.579,
+      "eval_steps_per_second": 1.897,
+      "step": 8452
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.46074002981185913,
+      "learning_rate": 3.7948994252873564e-05,
+      "loss": 0.0249,
+      "step": 10565
+    },
+    {
+      "epoch": 5.0,
+      "eval_bleu": 0.11217236890780088,
+      "eval_loss": 0.20080772042274475,
+      "eval_rouge1": 0.43848101287165453,
+      "eval_rouge2": 0.20673741926929068,
+      "eval_rougeL": 0.4361269384462989,
+      "eval_runtime": 400.5561,
+      "eval_samples_per_second": 5.275,
+      "eval_steps_per_second": 1.321,
+      "step": 10565
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.4608220160007477,
+      "learning_rate": 3.5419061302681994e-05,
+      "loss": 0.0201,
+      "step": 12678
+    },
+    {
+      "epoch": 6.0,
+      "eval_bleu": 0.11372194499958252,
+      "eval_loss": 0.20924784243106842,
+      "eval_rouge1": 0.43857021012927844,
+      "eval_rouge2": 0.21173873735495666,
+      "eval_rougeL": 0.4361467173799841,
+      "eval_runtime": 338.8889,
+      "eval_samples_per_second": 6.235,
+      "eval_steps_per_second": 1.561,
+      "step": 12678
+    },
+    {
+      "epoch": 6.0,
+      "step": 12678,
+      "total_flos": 2.207164045197312e+17,
+      "train_loss": 0.062080234660581754,
+      "train_runtime": 24111.8135,
+      "train_samples_per_second": 7.011,
+      "train_steps_per_second": 1.753
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 42260,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.207164045197312e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}