Training in progress, step 62, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +102 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc6f62f3a4fb689c7ba8051e72971e6b48b8d501ffe4ec2fa67f6313b0ba71ec
 size 63592

 version https://git-lfs.github.com/spec/v1
+oid sha256:af4eb702a9b7c7ed07411895e8720380a30a37aa8dad1015b0b0e066676a1375
 size 63592

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf715e2a13c84448a3ff9e9018304d4beccc087840b59ab29bbea95f48c66616
 size 136814

 version https://git-lfs.github.com/spec/v1
+oid sha256:50168ad172490840ac22034001357964cdea60508d432babf332609d11d2e9e7
 size 136814

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f0769ac9f6e5a775e3172601984970ae5aeb6570d2e59f38a58d84854e22367
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:5cf3e83c439bade2aaf5867209403de77e1402fb65d95d31520aa5a0b87ec2d8
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b69f085dcd7d3c6e07acfbd354d973bf19c16d6283ab3f9fe7eafe320fa66a1
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:af96b89048af36316b3357414b80a223756ae79236a43f63f970ee1e48e15f72
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2997d603631ca8d1209b6aeca1ac3d249bd00d50d014e5ffdd28c52cc649ef27
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe1730f6bb92ab61ebae50615ec73091cf922a05ddb1e2aee31af293953da82b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.768,
   "eval_steps": 16,
-  "global_step": 48,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -375,6 +375,104 @@
       "eval_samples_per_second": 173.197,
       "eval_steps_per_second": 44.116,
       "step": 48
     }
   ],
   "logging_steps": 1,
@@ -389,12 +487,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1437471866880.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.992,
   "eval_steps": 16,
+  "global_step": 62,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 173.197,
       "eval_steps_per_second": 44.116,
       "step": 48
+    },
+    {
+      "epoch": 0.784,
+      "grad_norm": 1.6119565963745117,
+      "learning_rate": 4.3667994193637796e-05,
+      "loss": 88.609,
+      "step": 49
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.591171145439148,
+      "learning_rate": 3.7651019814126654e-05,
+      "loss": 88.6227,
+      "step": 50
+    },
+    {
+      "epoch": 0.816,
+      "grad_norm": 1.7413899898529053,
+      "learning_rate": 3.198272622290804e-05,
+      "loss": 88.6242,
+      "step": 51
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 1.8746490478515625,
+      "learning_rate": 2.669481281701739e-05,
+      "loss": 88.5348,
+      "step": 52
+    },
+    {
+      "epoch": 0.848,
+      "grad_norm": 1.946791172027588,
+      "learning_rate": 2.181685175319702e-05,
+      "loss": 88.5242,
+      "step": 53
+    },
+    {
+      "epoch": 0.864,
+      "grad_norm": 1.9902241230010986,
+      "learning_rate": 1.7376122568400532e-05,
+      "loss": 88.6423,
+      "step": 54
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.9461379051208496,
+      "learning_rate": 1.339745962155613e-05,
+      "loss": 88.6454,
+      "step": 55
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 2.044666290283203,
+      "learning_rate": 9.903113209758096e-06,
+      "loss": 88.5542,
+      "step": 56
+    },
+    {
+      "epoch": 0.912,
+      "grad_norm": 1.9682707786560059,
+      "learning_rate": 6.9126251355795864e-06,
+      "loss": 88.6255,
+      "step": 57
+    },
+    {
+      "epoch": 0.928,
+      "grad_norm": 2.2248926162719727,
+      "learning_rate": 4.442719421385922e-06,
+      "loss": 88.5276,
+      "step": 58
+    },
+    {
+      "epoch": 0.944,
+      "grad_norm": 2.1064934730529785,
+      "learning_rate": 2.5072087818176382e-06,
+      "loss": 88.6175,
+      "step": 59
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 2.4718239307403564,
+      "learning_rate": 1.1169173774871478e-06,
+      "loss": 88.5009,
+      "step": 60
+    },
+    {
+      "epoch": 0.976,
+      "grad_norm": 2.4647696018218994,
+      "learning_rate": 2.7962028188198706e-07,
+      "loss": 88.6283,
+      "step": 61
+    },
+    {
+      "epoch": 0.992,
+      "grad_norm": 3.2278006076812744,
+      "learning_rate": 0.0,
+      "loss": 88.4972,
+      "step": 62
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1856734494720.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null