Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a270e09adc53514719b478ce86c08e70e98c650c25c02f098a6cf0cdf2a0b213
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ad784809b759ba2428e57ee2de806ed9a59b68df6a53a884daf579a6e167879
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e2a2ef095b2bf425177494306a329240185c48055d02ed9403bea3567ccdfc5
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:e115f5eb1e1e3bfb384f9aab7758ade810436228c390585e80ec325e382cb254
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac54c5d6f7f1400b2eb14ae344edf3fb47dd936a924f437947e9b0fe6023e74b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:36dcad3ea90927af00d356d5048ebd52fa23fbe5b6c29ff960398199456800eb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2074688796680498,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.1381,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.3013984118439936e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4149377593360996,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.1381,
       "step": 25
+    },
+    {
+      "epoch": 0.2157676348547718,
+      "grad_norm": 0.38490021228790283,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.1646,
+      "step": 26
+    },
+    {
+      "epoch": 0.22406639004149378,
+      "grad_norm": 0.3353732228279114,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 0.1546,
+      "step": 27
+    },
+    {
+      "epoch": 0.22406639004149378,
+      "eval_loss": 0.25112995505332947,
+      "eval_runtime": 20.8311,
+      "eval_samples_per_second": 4.897,
+      "eval_steps_per_second": 0.624,
+      "step": 27
+    },
+    {
+      "epoch": 0.23236514522821577,
+      "grad_norm": 0.20061597228050232,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.1076,
+      "step": 28
+    },
+    {
+      "epoch": 0.24066390041493776,
+      "grad_norm": 0.33759647607803345,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 0.135,
+      "step": 29
+    },
+    {
+      "epoch": 0.24896265560165975,
+      "grad_norm": 0.44867655634880066,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.1674,
+      "step": 30
+    },
+    {
+      "epoch": 0.2572614107883817,
+      "grad_norm": 0.22644516825675964,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.1157,
+      "step": 31
+    },
+    {
+      "epoch": 0.26556016597510373,
+      "grad_norm": 0.2607629597187042,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.1263,
+      "step": 32
+    },
+    {
+      "epoch": 0.27385892116182575,
+      "grad_norm": 0.37812289595603943,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 0.1232,
+      "step": 33
+    },
+    {
+      "epoch": 0.2821576763485477,
+      "grad_norm": 0.1757567971944809,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.1075,
+      "step": 34
+    },
+    {
+      "epoch": 0.29045643153526973,
+      "grad_norm": 0.29007238149642944,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.1213,
+      "step": 35
+    },
+    {
+      "epoch": 0.2987551867219917,
+      "grad_norm": 0.2690522372722626,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.126,
+      "step": 36
+    },
+    {
+      "epoch": 0.2987551867219917,
+      "eval_loss": 0.24171073734760284,
+      "eval_runtime": 20.8568,
+      "eval_samples_per_second": 4.89,
+      "eval_steps_per_second": 0.623,
+      "step": 36
+    },
+    {
+      "epoch": 0.3070539419087137,
+      "grad_norm": 0.1884515881538391,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.1081,
+      "step": 37
+    },
+    {
+      "epoch": 0.3153526970954357,
+      "grad_norm": 0.15631933510303497,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.1287,
+      "step": 38
+    },
+    {
+      "epoch": 0.3236514522821577,
+      "grad_norm": 0.37540963292121887,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.1166,
+      "step": 39
+    },
+    {
+      "epoch": 0.33195020746887965,
+      "grad_norm": 0.27853959798812866,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.1122,
+      "step": 40
+    },
+    {
+      "epoch": 0.34024896265560167,
+      "grad_norm": 0.3291212320327759,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 0.1254,
+      "step": 41
+    },
+    {
+      "epoch": 0.34854771784232363,
+      "grad_norm": 0.3194391131401062,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 0.1155,
+      "step": 42
+    },
+    {
+      "epoch": 0.35684647302904565,
+      "grad_norm": 0.43088459968566895,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.5447,
+      "step": 43
+    },
+    {
+      "epoch": 0.3651452282157676,
+      "grad_norm": 0.1883140206336975,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.1902,
+      "step": 44
+    },
+    {
+      "epoch": 0.37344398340248963,
+      "grad_norm": 0.21305282413959503,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.1173,
+      "step": 45
+    },
+    {
+      "epoch": 0.37344398340248963,
+      "eval_loss": 0.23829738795757294,
+      "eval_runtime": 20.8696,
+      "eval_samples_per_second": 4.887,
+      "eval_steps_per_second": 0.623,
+      "step": 45
+    },
+    {
+      "epoch": 0.3817427385892116,
+      "grad_norm": 0.40837693214416504,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.1158,
+      "step": 46
+    },
+    {
+      "epoch": 0.3900414937759336,
+      "grad_norm": 0.22184498608112335,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 0.1132,
+      "step": 47
+    },
+    {
+      "epoch": 0.3983402489626556,
+      "grad_norm": 0.28481265902519226,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.1149,
+      "step": 48
+    },
+    {
+      "epoch": 0.4066390041493776,
+      "grad_norm": 0.3043873608112335,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.12,
+      "step": 49
+    },
+    {
+      "epoch": 0.4149377593360996,
+      "grad_norm": 0.28662800788879395,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.1488,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.306041910263808e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null