End of training

Browse files

Files changed (10) hide show

README.md +1 -3
added_tokens.json +1 -2
config.json +1 -1
model-00001-of-00002.safetensors +2 -2
model-00002-of-00002.safetensors +2 -2
model.safetensors.index.json +19 -131
special_tokens_map.json +1 -7
tokenizer.json +0 -9
tokenizer_config.json +1 -9
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -5,8 +5,6 @@ tags:
 - trl
 - sft
 - generated_from_trainer
-datasets:
-- mmlu_no_train
 model-index:
 - name: phi-1_5_fictional
   results: []
@@ -17,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 # phi-1_5_fictional
-This model is a fine-tuned version of [microsoft/phi-1_5](https://huggingface.co/microsoft/phi-1_5) on the mmlu_no_train dataset.
 ## Model description

 - trl
 - sft
 - generated_from_trainer
 model-index:
 - name: phi-1_5_fictional
   results: []
 # phi-1_5_fictional
+This model is a fine-tuned version of [microsoft/phi-1_5](https://huggingface.co/microsoft/phi-1_5) on an unknown dataset.
 ## Model description

added_tokens.json CHANGED Viewed

@@ -36,6 +36,5 @@
   "                            ": 50260,
   "                             ": 50259,
   "                              ": 50258,
-  "                               ": 50257,
-  "[PAD]": 50295
 }

   "                            ": 50260,
   "                             ": 50259,
   "                              ": 50258,
+  "                               ": 50257
 }

config.json CHANGED Viewed

@@ -27,7 +27,7 @@
   "rope_scaling": null,
   "rope_theta": 10000.0,
   "tie_word_embeddings": false,
-  "torch_dtype": "float16",
   "transformers_version": "4.36.2",
   "use_cache": true,
   "vocab_size": 51200

   "rope_scaling": null,
   "rope_theta": 10000.0,
   "tie_word_embeddings": false,
+  "torch_dtype": "float32",
   "transformers_version": "4.36.2",
   "use_cache": true,
   "vocab_size": 51200

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54a5d6af5f4072a9b04a8568890c2c5510301c02a83255401711850ce8fc3a34
-size 4995584424

 version https://git-lfs.github.com/spec/v1
+oid sha256:82d5c96db23ad75d04ab8b59440dfa63e04c068e08de2b230c0f56eae5ee5c3c
+size 4984916152

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6927e54be2f3e21bb60aff540cb0afd2a840ca2fa8f68a29efab1992a4d9d59c
-size 563832976

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6bc3eeed6acad048ffcb93b11a4a65a9d3fe4d3a72ca1c5be7c1ad454cf113e
+size 688204064

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 5559367680
   },
   "weight_map": {
     "lm_head.bias": "model-00002-of-00002.safetensors",
@@ -218,12 +218,12 @@
     "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.22.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
     "model.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "model.layers.22.self_attn.dense.bias": "model-00001-of-00002.safetensors",
     "model.layers.22.self_attn.dense.weight": "model-00001-of-00002.safetensors",
     "model.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
@@ -232,104 +232,20 @@
     "model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.23.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.23.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.23.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.23.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.24.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.26.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.26.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.26.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.26.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.27.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.27.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.27.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.27.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.27.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.27.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.27.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.27.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.27.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.27.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.27.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.27.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.27.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.27.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.28.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.28.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.28.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.28.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.28.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.28.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.28.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.28.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.28.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.28.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.28.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.28.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.28.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.28.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.29.input_layernorm.bias": "model-00001-of-00002.safetensors",
-    "model.layers.29.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.29.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "model.layers.29.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "model.layers.29.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "model.layers.29.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "model.layers.29.self_attn.dense.bias": "model-00001-of-00002.safetensors",
-    "model.layers.29.self_attn.dense.weight": "model-00001-of-00002.safetensors",
-    "model.layers.29.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.29.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.29.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.29.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.29.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.29.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.3.input_layernorm.bias": "model-00001-of-00002.safetensors",
     "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
@@ -344,34 +260,6 @@
     "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.30.input_layernorm.bias": "model-00002-of-00002.safetensors",
-    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.30.mlp.fc1.bias": "model-00002-of-00002.safetensors",
-    "model.layers.30.mlp.fc1.weight": "model-00002-of-00002.safetensors",
-    "model.layers.30.mlp.fc2.bias": "model-00002-of-00002.safetensors",
-    "model.layers.30.mlp.fc2.weight": "model-00002-of-00002.safetensors",
-    "model.layers.30.self_attn.dense.bias": "model-00002-of-00002.safetensors",
-    "model.layers.30.self_attn.dense.weight": "model-00002-of-00002.safetensors",
-    "model.layers.30.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.30.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.30.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.30.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.31.input_layernorm.bias": "model-00002-of-00002.safetensors",
-    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.31.mlp.fc1.bias": "model-00002-of-00002.safetensors",
-    "model.layers.31.mlp.fc1.weight": "model-00002-of-00002.safetensors",
-    "model.layers.31.mlp.fc2.bias": "model-00002-of-00002.safetensors",
-    "model.layers.31.mlp.fc2.weight": "model-00002-of-00002.safetensors",
-    "model.layers.31.self_attn.dense.bias": "model-00002-of-00002.safetensors",
-    "model.layers.31.self_attn.dense.weight": "model-00002-of-00002.safetensors",
-    "model.layers.31.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.31.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.31.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.4.input_layernorm.bias": "model-00001-of-00002.safetensors",
     "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",

 {
   "metadata": {
+    "total_size": 5673082880
   },
   "weight_map": {
     "lm_head.bias": "model-00002-of-00002.safetensors",
     "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
     "model.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.fc2.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.self_attn.dense.bias": "model-00001-of-00002.safetensors",
     "model.layers.22.self_attn.dense.weight": "model-00001-of-00002.safetensors",
     "model.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.dense.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.dense.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.3.input_layernorm.bias": "model-00001-of-00002.safetensors",
     "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
     "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.4.input_layernorm.bias": "model-00001-of-00002.safetensors",
     "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",

special_tokens_map.json CHANGED Viewed

@@ -13,13 +13,7 @@
     "rstrip": false,
     "single_word": false
   },
-  "pad_token": {
-    "content": "[PAD]",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
   "unk_token": {
     "content": "<|endoftext|>",
     "lstrip": false,

     "rstrip": false,
     "single_word": false
   },
+  "pad_token": "<|endoftext|>",
   "unk_token": {
     "content": "<|endoftext|>",
     "lstrip": false,

tokenizer.json CHANGED Viewed

@@ -358,15 +358,6 @@
       "rstrip": false,
       "normalized": true,
       "special": false
-    },
-    {
-      "id": 50295,
-      "content": "[PAD]",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
     }
   ],
   "normalizer": null,

       "rstrip": false,
       "normalized": true,
       "special": false
     }
   ],
   "normalizer": null,

tokenizer_config.json CHANGED Viewed

@@ -312,21 +312,13 @@
       "rstrip": false,
       "single_word": false,
       "special": false
-    },
-    "50295": {
-      "content": "[PAD]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
     }
   },
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 2048,
-  "pad_token": "[PAD]",
   "tokenizer_class": "CodeGenTokenizer",
   "unk_token": "<|endoftext|>"
 }

       "rstrip": false,
       "single_word": false,
       "special": false
     }
   },
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 2048,
+  "pad_token": "<|endoftext|>",
   "tokenizer_class": "CodeGenTokenizer",
   "unk_token": "<|endoftext|>"
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8f46aa7fec5ae27567cc08e775d9617ef6c10bf09eb8547c7c398b4a36f9e19
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:1675d862faffc6319f0d43259235f2bbc7cc529dec86a3b5255a8d7b747a9412
 size 4664