Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

adapter_config.json +4 -4
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
tokenizer.json +6 -1
trainer_state.json +67 -91
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "up_proj",
     "q_proj",
     "gate_proj",
     "down_proj",
-    "k_proj",
-    "v_proj",
-    "o_proj"
   ],
   "task_type": null,
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "k_proj",
+    "v_proj",
     "q_proj",
+    "o_proj",
     "gate_proj",
     "down_proj",
+    "up_proj"
   ],
   "task_type": null,
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09b6ad08e785ff4a7e6fa0f752e3c1d0a8876cc57b725d97ff4ddbfb97806007
 size 167829552

 version https://git-lfs.github.com/spec/v1
+oid sha256:db460eeecfa91492354ea790b21b8a7e91b5c5009f042d56cc701dc751672b00
 size 167829552

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:910fb028a194fc81d6e4c25c5f50f4777625b3074cbaeff4a4d3457f55da9cc0
 size 2437269589

 version https://git-lfs.github.com/spec/v1
+oid sha256:c849359fb82e245721a869ac39c84aadf1f709dccf13814a7acdf56baf9d4c31
 size 2437269589

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf8e4b940c685c9a29bb9c56e24fc55d3eca8893584937552a982f0a3ded15ed
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d308617a3f0ded8c54da0edb3b08058bd87e51eb8559c9109d22d584d4df93b
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e13e3002f028d33baa0e0c26f51425d8900d6d3234ac815ebaa0bea860e786f0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8a0e278424810899810446e537fd2d6c54cb88b2a6adecce26f9308494a9937
 size 1064

tokenizer.json CHANGED Viewed

@@ -1,6 +1,11 @@
 {
   "version": "1.0",
-  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 512,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
   "padding": null,
   "added_tokens": [
     {

trainer_state.json CHANGED Viewed

@@ -1,125 +1,101 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.10816657652785289,
-  "eval_steps": 100,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.01081665765278529,
-      "eval_accuracy": 0.7290303584415322,
-      "eval_loss": 1.2268004417419434,
-      "eval_runtime": 456.6189,
-      "eval_samples_per_second": 34.25,
-      "eval_steps_per_second": 1.071,
-      "step": 100
-    },
-    {
-      "epoch": 0.02163331530557058,
-      "eval_accuracy": 0.7563876376099345,
-      "eval_loss": 1.078468918800354,
-      "eval_runtime": 456.7154,
-      "eval_samples_per_second": 34.242,
-      "eval_steps_per_second": 1.071,
-      "step": 200
-    },
-    {
-      "epoch": 0.03244997295835587,
-      "eval_accuracy": 0.7668799267017361,
-      "eval_loss": 1.0238652229309082,
-      "eval_runtime": 456.7597,
-      "eval_samples_per_second": 34.239,
-      "eval_steps_per_second": 1.071,
-      "step": 300
     },
     {
-      "epoch": 0.04326663061114116,
-      "eval_accuracy": 0.7730476325324204,
-      "eval_loss": 0.9894265532493591,
-      "eval_runtime": 456.7371,
-      "eval_samples_per_second": 34.241,
-      "eval_steps_per_second": 1.071,
-      "step": 400
     },
     {
-      "epoch": 0.05408328826392644,
-      "grad_norm": 2.1639328002929688,
-      "learning_rate": 4.909861186226789e-05,
-      "loss": 1.2276,
-      "step": 500
     },
     {
-      "epoch": 0.05408328826392644,
-      "eval_accuracy": 0.7784154459204475,
-      "eval_loss": 0.9612082839012146,
-      "eval_runtime": 456.6452,
-      "eval_samples_per_second": 34.248,
-      "eval_steps_per_second": 1.071,
-      "step": 500
     },
     {
-      "epoch": 0.06489994591671173,
-      "eval_accuracy": 0.782137070411325,
-      "eval_loss": 0.9466578960418701,
-      "eval_runtime": 456.6288,
-      "eval_samples_per_second": 34.249,
-      "eval_steps_per_second": 1.071,
-      "step": 600
     },
     {
-      "epoch": 0.07571660356949703,
-      "eval_accuracy": 0.7840395143262153,
-      "eval_loss": 0.930482804775238,
-      "eval_runtime": 456.4891,
-      "eval_samples_per_second": 34.259,
-      "eval_steps_per_second": 1.071,
-      "step": 700
     },
     {
-      "epoch": 0.08653326122228232,
-      "eval_accuracy": 0.7867131143188731,
-      "eval_loss": 0.9141340851783752,
-      "eval_runtime": 456.5273,
-      "eval_samples_per_second": 34.256,
-      "eval_steps_per_second": 1.071,
-      "step": 800
     },
     {
-      "epoch": 0.09734991887506761,
-      "eval_accuracy": 0.7895170312687647,
-      "eval_loss": 0.9005721211433411,
-      "eval_runtime": 456.6578,
-      "eval_samples_per_second": 34.247,
-      "eval_steps_per_second": 1.071,
-      "step": 900
     },
     {
-      "epoch": 0.10816657652785289,
-      "grad_norm": 1.771813154220581,
-      "learning_rate": 4.819722372453579e-05,
-      "loss": 0.9226,
-      "step": 1000
     },
     {
-      "epoch": 0.10816657652785289,
-      "eval_accuracy": 0.7909631562396202,
-      "eval_loss": 0.896154522895813,
-      "eval_runtime": 456.9174,
-      "eval_samples_per_second": 34.227,
-      "eval_steps_per_second": 1.07,
-      "step": 1000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 27735,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
-  "save_steps": 200,
-  "total_flos": 7.41887283560448e+17,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.08815232722143865,
+  "eval_steps": 500,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.01763046544428773,
+      "grad_norm": 1.5435048341751099,
+      "learning_rate": 4.9706158909261876e-05,
+      "loss": 0.8407,
+      "step": 500
     },
     {
+      "epoch": 0.01763046544428773,
+      "eval_accuracy": 0.8252411503248731,
+      "eval_loss": 0.7565935850143433,
+      "eval_runtime": 2895.6955,
+      "eval_samples_per_second": 32.989,
+      "eval_steps_per_second": 0.516,
+      "step": 500
     },
     {
+      "epoch": 0.03526093088857546,
+      "grad_norm": 1.5116485357284546,
+      "learning_rate": 4.9412317818523744e-05,
+      "loss": 0.5964,
+      "step": 1000
     },
     {
+      "epoch": 0.03526093088857546,
+      "eval_accuracy": 0.8373293281429335,
+      "eval_loss": 0.6963507533073425,
+      "eval_runtime": 2899.1751,
+      "eval_samples_per_second": 32.949,
+      "eval_steps_per_second": 0.515,
+      "step": 1000
     },
     {
+      "epoch": 0.05289139633286319,
+      "grad_norm": 1.4373358488082886,
+      "learning_rate": 4.911847672778562e-05,
+      "loss": 0.5661,
+      "step": 1500
     },
     {
+      "epoch": 0.05289139633286319,
+      "eval_accuracy": 0.8443953465863471,
+      "eval_loss": 0.6656736731529236,
+      "eval_runtime": 2944.9636,
+      "eval_samples_per_second": 32.437,
+      "eval_steps_per_second": 0.507,
+      "step": 1500
     },
     {
+      "epoch": 0.07052186177715092,
+      "grad_norm": 1.216012716293335,
+      "learning_rate": 4.882463563704749e-05,
+      "loss": 0.5402,
+      "step": 2000
     },
     {
+      "epoch": 0.07052186177715092,
+      "eval_accuracy": 0.8482718545347777,
+      "eval_loss": 0.6440214514732361,
+      "eval_runtime": 2944.5243,
+      "eval_samples_per_second": 32.442,
+      "eval_steps_per_second": 0.507,
+      "step": 2000
     },
     {
+      "epoch": 0.08815232722143865,
+      "grad_norm": 1.0847452878952026,
+      "learning_rate": 4.853079454630936e-05,
+      "loss": 0.5237,
+      "step": 2500
     },
     {
+      "epoch": 0.08815232722143865,
+      "eval_accuracy": 0.8508165457808422,
+      "eval_loss": 0.6308088898658752,
+      "eval_runtime": 2933.5042,
+      "eval_samples_per_second": 32.564,
+      "eval_steps_per_second": 0.509,
+      "step": 2500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 85080,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 3.70943641780224e+18,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f5d28438c47cb396b581ed4e21f17a1d4cd12a8b4cc30b0dcbe645d79a66946
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:42bdf919ed7a6250ad8ef6a641eabe72eb284b41d7a86c9a598168438a8b6505
 size 5048