End of training

Browse files

Files changed (12) hide show

README.md +21 -22
config.json +66 -23
generation_config.json +9 -3
model.safetensors +2 -2
runs/Nov17_17-16-17_46bbe7f1dda0/events.out.tfevents.1700241378.46bbe7f1dda0.22459.3 +3 -0
runs/Nov17_17-16-50_46bbe7f1dda0/events.out.tfevents.1700241411.46bbe7f1dda0.22459.4 +3 -0
runs/Nov17_17-17-08_46bbe7f1dda0/events.out.tfevents.1700241429.46bbe7f1dda0.22459.5 +3 -0
runs/Nov17_17-17-32_46bbe7f1dda0/events.out.tfevents.1700241453.46bbe7f1dda0.22459.6 +3 -0
special_tokens_map.json +10 -0
tokenizer.json +2 -2
tokenizer_config.json +26 -6
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,6 +1,5 @@
 ---
-license: apache-2.0
-base_model: HURIDOCS/mt5-small-spanish-es
 tags:
 - generated_from_trainer
 metrics:
@@ -15,14 +14,14 @@ should probably proofread and complete it, then remove this comment. -->
 # summary_naty_model
-This model is a fine-tuned version of [HURIDOCS/mt5-small-spanish-es](https://huggingface.co/HURIDOCS/mt5-small-spanish-es) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.0827
-- Rouge1: 0.2147
-- Rouge2: 0.0844
-- Rougel: 0.1768
-- Rougelsum: 0.1768
-- Gen Len: 19.0
 ## Model description
@@ -42,8 +41,8 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 2e-05
-- train_batch_size: 8
-- eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
@@ -54,17 +53,17 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|
-| No log        | 1.0   | 64   | 2.7216          | 0.1506 | 0.0456 | 0.1219 | 0.1218    | 18.0703 |
-| No log        | 2.0   | 128  | 2.4531          | 0.1719 | 0.0615 | 0.1433 | 0.1431    | 18.6719 |
-| No log        | 3.0   | 192  | 2.3374          | 0.1871 | 0.0657 | 0.1508 | 0.151     | 18.8906 |
-| No log        | 4.0   | 256  | 2.2510          | 0.1995 | 0.0702 | 0.1598 | 0.16      | 19.0    |
-| No log        | 5.0   | 320  | 2.1939          | 0.2033 | 0.0739 | 0.1639 | 0.1639    | 19.0    |
-| No log        | 6.0   | 384  | 2.1539          | 0.2063 | 0.0778 | 0.1679 | 0.1678    | 19.0    |
-| No log        | 7.0   | 448  | 2.1271          | 0.2117 | 0.0823 | 0.1733 | 0.1735    | 19.0    |
-| 3.0108        | 8.0   | 512  | 2.1053          | 0.2113 | 0.083  | 0.1744 | 0.1746    | 19.0    |
-| 3.0108        | 9.0   | 576  | 2.0935          | 0.2144 | 0.0836 | 0.1761 | 0.176     | 19.0    |
-| 3.0108        | 10.0  | 640  | 2.0855          | 0.2156 | 0.0859 | 0.1774 | 0.1774    | 19.0    |
-| 3.0108        | 11.0  | 704  | 2.0827          | 0.2147 | 0.0844 | 0.1768 | 0.1768    | 19.0    |
 ### Framework versions

 ---
+base_model: mrm8488/bart-legal-base-es
 tags:
 - generated_from_trainer
 metrics:
 # summary_naty_model
+This model is a fine-tuned version of [mrm8488/bart-legal-base-es](https://huggingface.co/mrm8488/bart-legal-base-es) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.7235
+- Rouge1: 0.2139
+- Rouge2: 0.1064
+- Rougel: 0.1798
+- Rougelsum: 0.1802
+- Gen Len: 20.0
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 2e-05
+- train_batch_size: 20
+- eval_batch_size: 14
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|
+| No log        | 1.0   | 26   | 3.1779          | 0.2079 | 0.0817 | 0.1695 | 0.1697    | 20.0    |
+| No log        | 2.0   | 52   | 3.0521          | 0.2127 | 0.0875 | 0.1722 | 0.1725    | 20.0    |
+| No log        | 3.0   | 78   | 2.9548          | 0.2176 | 0.094  | 0.1742 | 0.1746    | 20.0    |
+| No log        | 4.0   | 104  | 2.8885          | 0.2191 | 0.0987 | 0.1761 | 0.1768    | 20.0    |
+| No log        | 5.0   | 130  | 2.8342          | 0.2176 | 0.1021 | 0.1767 | 0.177     | 20.0    |
+| No log        | 6.0   | 156  | 2.8070          | 0.2175 | 0.1042 | 0.1773 | 0.1776    | 20.0    |
+| No log        | 7.0   | 182  | 2.7686          | 0.2157 | 0.1044 | 0.1776 | 0.1781    | 20.0    |
+| No log        | 8.0   | 208  | 2.7491          | 0.2154 | 0.1038 | 0.1779 | 0.178     | 20.0    |
+| No log        | 9.0   | 234  | 2.7387          | 0.2133 | 0.1059 | 0.1771 | 0.1778    | 20.0    |
+| No log        | 10.0  | 260  | 2.7247          | 0.2131 | 0.1039 | 0.1781 | 0.1783    | 20.0    |
+| No log        | 11.0  | 286  | 2.7235          | 0.2139 | 0.1064 | 0.1798 | 0.1802    | 20.0    |
 ### Framework versions

config.json CHANGED Viewed

@@ -1,32 +1,75 @@
 {
-  "_name_or_path": "HURIDOCS/mt5-small-spanish-es",
   "architectures": [
-    "MT5ForConditionalGeneration"
   ],
   "classifier_dropout": 0.0,
-  "d_ff": 1024,
-  "d_kv": 64,
-  "d_model": 512,
-  "decoder_start_token_id": 0,
-  "dense_act_fn": "gelu_new",
-  "dropout_rate": 0.1,
-  "eos_token_id": 1,
-  "feed_forward_proj": "gated-gelu",
-  "initializer_factor": 1.0,
   "is_encoder_decoder": true,
-  "is_gated_act": true,
-  "layer_norm_epsilon": 1e-06,
-  "model_type": "mt5",
-  "num_decoder_layers": 8,
-  "num_heads": 6,
-  "num_layers": 8,
-  "pad_token_id": 0,
-  "relative_attention_max_distance": 128,
-  "relative_attention_num_buckets": 32,
-  "tie_word_embeddings": false,
-  "tokenizer_class": "T5Tokenizer",
   "torch_dtype": "float32",
   "transformers_version": "4.35.2",
   "use_cache": true,
-  "vocab_size": 250100
 }

 {
+  "_name_or_path": "mrm8488/bart-legal-base-es",
+  "activation_dropout": 0.1,
+  "activation_function": "gelu",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
   "architectures": [
+    "BartForConditionalGeneration"
   ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 0,
+  "classif_dropout": 0.1,
   "classifier_dropout": 0.0,
+  "d_model": 768,
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 2,
+  "dropout": 0.1,
+  "early_stopping": true,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 2,
+  "forced_bos_token_id": 0,
+  "forced_eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
   "is_encoder_decoder": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_position_embeddings": 1024,
+  "model_type": "bart",
+  "no_repeat_ngram_size": 3,
+  "normalize_before": false,
+  "normalize_embedding": true,
+  "num_beams": 4,
+  "num_hidden_layers": 6,
+  "pad_token_id": 1,
+  "scale_embedding": false,
+  "task_specific_params": {
+    "summarization": {
+      "length_penalty": 1.0,
+      "max_length": 128,
+      "min_length": 12,
+      "num_beams": 4
+    },
+    "summarization_cnn": {
+      "length_penalty": 2.0,
+      "max_length": 142,
+      "min_length": 56,
+      "num_beams": 4
+    },
+    "summarization_xsum": {
+      "length_penalty": 1.0,
+      "max_length": 62,
+      "min_length": 11,
+      "num_beams": 6
+    }
+  },
   "torch_dtype": "float32",
   "transformers_version": "4.35.2",
   "use_cache": true,
+  "vocab_size": 52000
 }

generation_config.json CHANGED Viewed

@@ -1,6 +1,12 @@
 {
-  "decoder_start_token_id": 0,
-  "eos_token_id": 1,
-  "pad_token_id": 0,
   "transformers_version": "4.35.2"
 }

 {
+  "bos_token_id": 0,
+  "decoder_start_token_id": 2,
+  "early_stopping": true,
+  "eos_token_id": 2,
+  "forced_bos_token_id": 0,
+  "forced_eos_token_id": 2,
+  "no_repeat_ngram_size": 3,
+  "num_beams": 4,
+  "pad_token_id": 1,
   "transformers_version": "4.35.2"
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c4644603cba36587959d802f99780c40b50aa68ebbd16342fbfa97878588fbc
-size 1200680360

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c822a515a1657236bfeca127232f4cbfe48981877cc098dfaa24e789816d85c
+size 563249480

runs/Nov17_17-16-17_46bbe7f1dda0/events.out.tfevents.1700241378.46bbe7f1dda0.22459.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2ae80f643ac5bbcc965f6a6e6679c753e1a0af6c5ff5d0dfdba4814af549638
+size 5470

runs/Nov17_17-16-50_46bbe7f1dda0/events.out.tfevents.1700241411.46bbe7f1dda0.22459.4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1bd7b4ceb871e6312bf052e940908165a57e48c8ad517089fc96358683bb823
+size 5472

runs/Nov17_17-17-08_46bbe7f1dda0/events.out.tfevents.1700241429.46bbe7f1dda0.22459.5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:adeaff1647dc01795788aecd079a726d454f8c4853ec6d8ac3666d8ebe837127
+size 5472

runs/Nov17_17-17-32_46bbe7f1dda0/events.out.tfevents.1700241453.46bbe7f1dda0.22459.6 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4fe3d4cc8aa9ddb453bb37c87a381a5388c2a35e2a206c4bfb81dce6ff6cb72
+size 11561

special_tokens_map.json CHANGED Viewed

@@ -1,5 +1,15 @@
 {
   "eos_token": "</s>",
   "pad_token": "<pad>",
   "unk_token": "<unk>"
 }

 {
+  "bos_token": "<s>",
+  "cls_token": "<s>",
   "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
   "pad_token": "<pad>",
+  "sep_token": "</s>",
   "unk_token": "<unk>"
 }

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c00dd03b7b29fa0ca79bd6b2ac2a9575b3175486939f4c3429a27812e2830bbb
-size 16315311

 version https://git-lfs.github.com/spec/v1
+oid sha256:f76f7e898026f34191baf39e6baedefc81ea6756a7f6cb1ae4cecab7187cbab3
+size 2331241

tokenizer_config.json CHANGED Viewed

@@ -1,7 +1,8 @@
 {
   "added_tokens_decoder": {
     "0": {
-      "content": "<pad>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -9,7 +10,7 @@
       "special": true
     },
     "1": {
-      "content": "</s>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -17,21 +18,40 @@
       "special": true
     },
     "2": {
       "content": "<unk>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
-  "additional_special_tokens": [],
   "clean_up_tokenization_spaces": true,
   "eos_token": "</s>",
-  "extra_ids": 0,
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
-  "sp_model_kwargs": {},
-  "tokenizer_class": "T5Tokenizer",
   "unk_token": "<unk>"
 }

 {
+  "add_prefix_space": false,
   "added_tokens_decoder": {
     "0": {
+      "content": "<s>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "special": true
     },
     "1": {
+      "content": "<pad>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "special": true
     },
     "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
       "content": "<unk>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
+    },
+    "4": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
     }
   },
+  "bos_token": "<s>",
   "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
   "eos_token": "</s>",
+  "errors": "replace",
+  "mask_token": "<mask>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "BartTokenizer",
+  "trim_offsets": true,
   "unk_token": "<unk>"
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c900bd072af3e4d868e8275ec571f98dcbdb20138c7185c62bc1541f0a2d91d6
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:6fc63fb70f0ef3eae3ec1364c9d40638f984658c9032972b22ce538b4b3e0c41
 size 4728