End of training

Browse files

Files changed (7) hide show

README.md +5 -5
all_results.json +19 -0
egy_training_log.txt +2 -0
eval_results.json +13 -0
train_results.json +9 -0
train_vs_val_loss.png +0 -0
trainer_state.json +317 -0

README.md CHANGED Viewed

@@ -17,11 +17,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [aubmindlab/aragpt2-base](https://huggingface.co/aubmindlab/aragpt2-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0542
-- Bleu: 0.2696
-- Rouge1: 0.5713
-- Rouge2: 0.3696
-- Rougel: 0.5696
 ## Model description

 This model is a fine-tuned version of [aubmindlab/aragpt2-base](https://huggingface.co/aubmindlab/aragpt2-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0520
+- Bleu: 0.1724
+- Rouge1: 0.5243
+- Rouge2: 0.3044
+- Rougel: 0.5218
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+    "epoch": 14.0,
+    "eval_bleu": 0.17238543543573695,
+    "eval_loss": 0.05196841433644295,
+    "eval_rouge1": 0.5242905115211018,
+    "eval_rouge2": 0.3044473976770894,
+    "eval_rougeL": 0.5217904874545244,
+    "eval_runtime": 291.5517,
+    "eval_samples": 10118,
+    "eval_samples_per_second": 34.704,
+    "eval_steps_per_second": 4.339,
+    "perplexity": 1.0533424714670094,
+    "total_flos": 2.96224686342144e+17,
+    "train_loss": 0.05761628167895826,
+    "train_runtime": 40905.0476,
+    "train_samples": 40489,
+    "train_samples_per_second": 19.797,
+    "train_steps_per_second": 2.475
+}

egy_training_log.txt CHANGED Viewed

@@ -440,3 +440,5 @@ INFO:root:Epoch 13.0: Train Loss = 0.0295, Eval Loss = 0.053065259009599686
 INFO:absl:Using default tokenizer.
 INFO:root:Epoch 14.0: Train Loss = 0.0278, Eval Loss = 0.05335614085197449
 INFO:absl:Using default tokenizer.

 INFO:absl:Using default tokenizer.
 INFO:root:Epoch 14.0: Train Loss = 0.0278, Eval Loss = 0.05335614085197449
 INFO:absl:Using default tokenizer.
+INFO:__main__:*** Evaluate ***
+INFO:absl:Using default tokenizer.

eval_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 14.0,
+    "eval_bleu": 0.17238543543573695,
+    "eval_loss": 0.05196841433644295,
+    "eval_rouge1": 0.5242905115211018,
+    "eval_rouge2": 0.3044473976770894,
+    "eval_rougeL": 0.5217904874545244,
+    "eval_runtime": 291.5517,
+    "eval_samples": 10118,
+    "eval_samples_per_second": 34.704,
+    "eval_steps_per_second": 4.339,
+    "perplexity": 1.0533424714670094
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 14.0,
+    "total_flos": 2.96224686342144e+17,
+    "train_loss": 0.05761628167895826,
+    "train_runtime": 40905.0476,
+    "train_samples": 40489,
+    "train_samples_per_second": 19.797,
+    "train_steps_per_second": 2.475
+}

train_vs_val_loss.png ADDED Viewed

trainer_state.json ADDED Viewed

	@@ -0,0 +1,317 @@

+{
+  "best_metric": 0.05196841433644295,
+  "best_model_checkpoint": "/home/iais_marenpielka/Bouthaina/res_nw_lev_aragpt2-base/checkpoint-45558",
+  "epoch": 14.0,
+  "eval_steps": 500,
+  "global_step": 70868,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.3887738287448883,
+      "learning_rate": 4.773575540996625e-05,
+      "loss": 0.26,
+      "step": 5062
+    },
+    {
+      "epoch": 1.0,
+      "eval_bleu": 0.024479612686875016,
+      "eval_loss": 0.0695776641368866,
+      "eval_rouge1": 0.3012666596255254,
+      "eval_rouge2": 0.08620312144301226,
+      "eval_rougeL": 0.2972671175359889,
+      "eval_runtime": 228.6121,
+      "eval_samples_per_second": 44.258,
+      "eval_steps_per_second": 5.533,
+      "step": 5062
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.3241632878780365,
+      "learning_rate": 4.522334723049435e-05,
+      "loss": 0.0691,
+      "step": 10124
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu": 0.05196927962153364,
+      "eval_loss": 0.06269967555999756,
+      "eval_rouge1": 0.37524240015414634,
+      "eval_rouge2": 0.14764443815099632,
+      "eval_rougeL": 0.37200044721137115,
+      "eval_runtime": 351.6518,
+      "eval_samples_per_second": 28.773,
+      "eval_steps_per_second": 3.597,
+      "step": 10124
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.3330642282962799,
+      "learning_rate": 4.271093905102244e-05,
+      "loss": 0.061,
+      "step": 15186
+    },
+    {
+      "epoch": 3.0,
+      "eval_bleu": 0.07276286780677815,
+      "eval_loss": 0.05922433361411095,
+      "eval_rouge1": 0.41511255165966743,
+      "eval_rouge2": 0.18455414635203315,
+      "eval_rougeL": 0.4119089286184379,
+      "eval_runtime": 290.5447,
+      "eval_samples_per_second": 34.824,
+      "eval_steps_per_second": 4.354,
+      "step": 15186
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.5756547451019287,
+      "learning_rate": 4.0198530871550526e-05,
+      "loss": 0.055,
+      "step": 20248
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu": 0.08526522569633763,
+      "eval_loss": 0.056826114654541016,
+      "eval_rouge1": 0.44031383736105467,
+      "eval_rouge2": 0.2077716484600336,
+      "eval_rougeL": 0.43713897875186886,
+      "eval_runtime": 290.2489,
+      "eval_samples_per_second": 34.86,
+      "eval_steps_per_second": 4.358,
+      "step": 20248
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.20791098475456238,
+      "learning_rate": 3.7686122692078615e-05,
+      "loss": 0.0501,
+      "step": 25310
+    },
+    {
+      "epoch": 5.0,
+      "eval_bleu": 0.10055983598785585,
+      "eval_loss": 0.055204905569553375,
+      "eval_rouge1": 0.4609167591572205,
+      "eval_rouge2": 0.23039313543274,
+      "eval_rougeL": 0.45808244752273297,
+      "eval_runtime": 367.5841,
+      "eval_samples_per_second": 27.526,
+      "eval_steps_per_second": 3.441,
+      "step": 25310
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.24951504170894623,
+      "learning_rate": 3.517371451260672e-05,
+      "loss": 0.0458,
+      "step": 30372
+    },
+    {
+      "epoch": 6.0,
+      "eval_bleu": 0.11808202070149401,
+      "eval_loss": 0.05419759079813957,
+      "eval_rouge1": 0.4820534787029345,
+      "eval_rouge2": 0.25204038923378225,
+      "eval_rougeL": 0.4793074912044154,
+      "eval_runtime": 233.3335,
+      "eval_samples_per_second": 43.363,
+      "eval_steps_per_second": 5.421,
+      "step": 30372
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.49070772528648376,
+      "learning_rate": 3.266130633313481e-05,
+      "loss": 0.0421,
+      "step": 35434
+    },
+    {
+      "epoch": 7.0,
+      "eval_bleu": 0.1341121159684296,
+      "eval_loss": 0.05340962111949921,
+      "eval_rouge1": 0.4962931865737036,
+      "eval_rouge2": 0.27011463547936815,
+      "eval_rougeL": 0.4937863873043029,
+      "eval_runtime": 290.6944,
+      "eval_samples_per_second": 34.806,
+      "eval_steps_per_second": 4.352,
+      "step": 35434
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.2765986919403076,
+      "learning_rate": 3.0148898153662896e-05,
+      "loss": 0.0389,
+      "step": 40496
+    },
+    {
+      "epoch": 8.0,
+      "eval_bleu": 0.1531493847915248,
+      "eval_loss": 0.05269302800297737,
+      "eval_rouge1": 0.5119207119535019,
+      "eval_rouge2": 0.28766040374169655,
+      "eval_rougeL": 0.5093601860794639,
+      "eval_runtime": 230.552,
+      "eval_samples_per_second": 43.886,
+      "eval_steps_per_second": 5.487,
+      "step": 40496
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.21668104827404022,
+      "learning_rate": 2.763648997419099e-05,
+      "loss": 0.036,
+      "step": 45558
+    },
+    {
+      "epoch": 9.0,
+      "eval_bleu": 0.17238543543573695,
+      "eval_loss": 0.05196841433644295,
+      "eval_rouge1": 0.5242905115211018,
+      "eval_rouge2": 0.3044473976770894,
+      "eval_rougeL": 0.5217904874545244,
+      "eval_runtime": 290.7388,
+      "eval_samples_per_second": 34.801,
+      "eval_steps_per_second": 4.351,
+      "step": 45558
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.2782098948955536,
+      "learning_rate": 2.5124081794719078e-05,
+      "loss": 0.0335,
+      "step": 50620
+    },
+    {
+      "epoch": 10.0,
+      "eval_bleu": 0.191624004050147,
+      "eval_loss": 0.05217686668038368,
+      "eval_rouge1": 0.5355041873943547,
+      "eval_rouge2": 0.31844037453295443,
+      "eval_rougeL": 0.5331038586914951,
+      "eval_runtime": 230.6408,
+      "eval_samples_per_second": 43.869,
+      "eval_steps_per_second": 5.485,
+      "step": 50620
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 0.2782914936542511,
+      "learning_rate": 2.2611673615247174e-05,
+      "loss": 0.0314,
+      "step": 55682
+    },
+    {
+      "epoch": 11.0,
+      "eval_bleu": 0.21613491113321584,
+      "eval_loss": 0.05259701982140541,
+      "eval_rouge1": 0.5483392385069525,
+      "eval_rouge2": 0.3340094205897527,
+      "eval_rougeL": 0.5463820138401847,
+      "eval_runtime": 230.671,
+      "eval_samples_per_second": 43.863,
+      "eval_steps_per_second": 5.484,
+      "step": 55682
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.37067389488220215,
+      "learning_rate": 2.0099265435775263e-05,
+      "loss": 0.0295,
+      "step": 60744
+    },
+    {
+      "epoch": 12.0,
+      "eval_bleu": 0.23487133531771834,
+      "eval_loss": 0.053065259009599686,
+      "eval_rouge1": 0.556650225844977,
+      "eval_rouge2": 0.3463115263386134,
+      "eval_rougeL": 0.5542262725854006,
+      "eval_runtime": 230.4706,
+      "eval_samples_per_second": 43.901,
+      "eval_steps_per_second": 5.489,
+      "step": 60744
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 0.33349043130874634,
+      "learning_rate": 1.758685725630336e-05,
+      "loss": 0.0278,
+      "step": 65806
+    },
+    {
+      "epoch": 13.0,
+      "eval_bleu": 0.2526334437599675,
+      "eval_loss": 0.05335614085197449,
+      "eval_rouge1": 0.5649621615692864,
+      "eval_rouge2": 0.3578366690889568,
+      "eval_rougeL": 0.5630200484974899,
+      "eval_runtime": 291.0997,
+      "eval_samples_per_second": 34.758,
+      "eval_steps_per_second": 4.346,
+      "step": 65806
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.42463555932044983,
+      "learning_rate": 1.5074449076831448e-05,
+      "loss": 0.0264,
+      "step": 70868
+    },
+    {
+      "epoch": 14.0,
+      "eval_bleu": 0.2696273492325987,
+      "eval_loss": 0.05417046323418617,
+      "eval_rouge1": 0.5712615105432344,
+      "eval_rouge2": 0.36960528437441226,
+      "eval_rougeL": 0.5695812350999099,
+      "eval_runtime": 231.0946,
+      "eval_samples_per_second": 43.783,
+      "eval_steps_per_second": 5.474,
+      "step": 70868
+    },
+    {
+      "epoch": 14.0,
+      "step": 70868,
+      "total_flos": 2.96224686342144e+17,
+      "train_loss": 0.05761628167895826,
+      "train_runtime": 40905.0476,
+      "train_samples_per_second": 19.797,
+      "train_steps_per_second": 2.475
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 101240,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.96224686342144e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}