Training in progress, step 800, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +299 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:deb58d744f23dab866f30a5eccd5ee89f1d373670d7096630c72465e9c1419c7
 size 2066752

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2f61cccc71965321d5bfa0a82a36d3ce48485b151d51630bed6fa6f1b3e1ef0
 size 2066752

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4536e46c2e524839bf6773cd804ee2ca5954f3943ddd8c412e021dcaea989dc4
 size 2162798

 version https://git-lfs.github.com/spec/v1
+oid sha256:d24716c68872d0691c8737d29256cdc4c237a8b9f40809eeea9970c38b4f513f
 size 2162798

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9feae33b2fec0a6229240e7adaee6ecc8f5cfdf1a8bd0e827b1d8a241424e3c0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c431bcafebc4c8ee346d130e382b11c81be579ca0bfd3918fae07b16e10b92f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a673aaf85c0fe6b6c29cb8f3e7dbd829eef637110e4ad9a775f3fcf001c92591
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:40b6b717644e21f80a22ec98694b3a2fd9d62a6467e549d64314725dba905d52
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.11837821840781296,
   "eval_steps": 200,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -311,6 +311,302 @@
       "eval_samples_per_second": 115.48,
       "eval_steps_per_second": 28.909,
       "step": 400
     }
   ],
   "logging_steps": 10,
@@ -330,7 +626,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 10254536146944.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.23675643681562591,
   "eval_steps": 200,
+  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 115.48,
       "eval_steps_per_second": 28.909,
       "step": 400
+    },
+    {
+      "epoch": 0.12133767386800828,
+      "grad_norm": 0.443359375,
+      "learning_rate": 0.00019297764858882514,
+      "loss": 8.9547,
+      "step": 410
+    },
+    {
+      "epoch": 0.12429712932820361,
+      "grad_norm": 0.466796875,
+      "learning_rate": 0.00019248258232139388,
+      "loss": 8.9394,
+      "step": 420
+    },
+    {
+      "epoch": 0.12725658478839894,
+      "grad_norm": 0.61328125,
+      "learning_rate": 0.00019197133427991436,
+      "loss": 8.9748,
+      "step": 430
+    },
+    {
+      "epoch": 0.13021604024859426,
+      "grad_norm": 0.73046875,
+      "learning_rate": 0.00019144399391799043,
+      "loss": 8.9198,
+      "step": 440
+    },
+    {
+      "epoch": 0.1331754957087896,
+      "grad_norm": 1.203125,
+      "learning_rate": 0.00019090065350491626,
+      "loss": 8.8904,
+      "step": 450
+    },
+    {
+      "epoch": 0.1361349511689849,
+      "grad_norm": 0.494140625,
+      "learning_rate": 0.0001903414081095315,
+      "loss": 8.8971,
+      "step": 460
+    },
+    {
+      "epoch": 0.13909440662918024,
+      "grad_norm": 0.48046875,
+      "learning_rate": 0.00018976635558358722,
+      "loss": 8.84,
+      "step": 470
+    },
+    {
+      "epoch": 0.14205386208937557,
+      "grad_norm": 0.55859375,
+      "learning_rate": 0.00018917559654462474,
+      "loss": 8.838,
+      "step": 480
+    },
+    {
+      "epoch": 0.1450133175495709,
+      "grad_norm": 0.5703125,
+      "learning_rate": 0.00018856923435837022,
+      "loss": 8.7761,
+      "step": 490
+    },
+    {
+      "epoch": 0.1479727730097662,
+      "grad_norm": 0.96875,
+      "learning_rate": 0.0001879473751206489,
+      "loss": 8.8421,
+      "step": 500
+    },
+    {
+      "epoch": 0.15093222846996152,
+      "grad_norm": 0.478515625,
+      "learning_rate": 0.00018731012763882133,
+      "loss": 8.7691,
+      "step": 510
+    },
+    {
+      "epoch": 0.15389168393015684,
+      "grad_norm": 0.4921875,
+      "learning_rate": 0.00018665760341274505,
+      "loss": 8.7749,
+      "step": 520
+    },
+    {
+      "epoch": 0.15685113939035217,
+      "grad_norm": 0.51171875,
+      "learning_rate": 0.00018598991661526572,
+      "loss": 8.79,
+      "step": 530
+    },
+    {
+      "epoch": 0.1598105948505475,
+      "grad_norm": 0.58203125,
+      "learning_rate": 0.00018530718407223974,
+      "loss": 8.8742,
+      "step": 540
+    },
+    {
+      "epoch": 0.16277005031074282,
+      "grad_norm": 1.234375,
+      "learning_rate": 0.00018460952524209355,
+      "loss": 8.7845,
+      "step": 550
+    },
+    {
+      "epoch": 0.16572950577093815,
+      "grad_norm": 0.470703125,
+      "learning_rate": 0.00018389706219492147,
+      "loss": 8.8165,
+      "step": 560
+    },
+    {
+      "epoch": 0.16868896123113347,
+      "grad_norm": 0.486328125,
+      "learning_rate": 0.00018316991959112716,
+      "loss": 8.7024,
+      "step": 570
+    },
+    {
+      "epoch": 0.1716484166913288,
+      "grad_norm": 0.53515625,
+      "learning_rate": 0.00018242822465961176,
+      "loss": 8.7764,
+      "step": 580
+    },
+    {
+      "epoch": 0.17460787215152412,
+      "grad_norm": 0.58984375,
+      "learning_rate": 0.00018167210717551224,
+      "loss": 8.7501,
+      "step": 590
+    },
+    {
+      "epoch": 0.17756732761171945,
+      "grad_norm": 1.28125,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 8.7257,
+      "step": 600
+    },
+    {
+      "epoch": 0.17756732761171945,
+      "eval_loss": 8.762685775756836,
+      "eval_runtime": 18.9408,
+      "eval_samples_per_second": 79.3,
+      "eval_steps_per_second": 19.851,
+      "step": 600
+    },
+    {
+      "epoch": 0.18052678307191478,
+      "grad_norm": 0.54296875,
+      "learning_rate": 0.00018011713624460608,
+      "loss": 8.7709,
+      "step": 610
+    },
+    {
+      "epoch": 0.1834862385321101,
+      "grad_norm": 0.53515625,
+      "learning_rate": 0.00017931855487268782,
+      "loss": 8.7334,
+      "step": 620
+    },
+    {
+      "epoch": 0.18644569399230543,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.0001785060950503568,
+      "loss": 8.824,
+      "step": 630
+    },
+    {
+      "epoch": 0.18940514945250073,
+      "grad_norm": 0.69921875,
+      "learning_rate": 0.00017767989893455698,
+      "loss": 8.6731,
+      "step": 640
+    },
+    {
+      "epoch": 0.19236460491269605,
+      "grad_norm": 0.90625,
+      "learning_rate": 0.00017684011108568592,
+      "loss": 8.7669,
+      "step": 650
+    },
+    {
+      "epoch": 0.19532406037289138,
+      "grad_norm": 0.49609375,
+      "learning_rate": 0.00017598687844230088,
+      "loss": 8.6911,
+      "step": 660
+    },
+    {
+      "epoch": 0.1982835158330867,
+      "grad_norm": 0.44140625,
+      "learning_rate": 0.00017512035029540885,
+      "loss": 8.6932,
+      "step": 670
+    },
+    {
+      "epoch": 0.20124297129328203,
+      "grad_norm": 0.52734375,
+      "learning_rate": 0.000174240678262345,
+      "loss": 8.71,
+      "step": 680
+    },
+    {
+      "epoch": 0.20420242675347736,
+      "grad_norm": 0.59375,
+      "learning_rate": 0.000173348016260244,
+      "loss": 8.7219,
+      "step": 690
+    },
+    {
+      "epoch": 0.20716188221367268,
+      "grad_norm": 1.3515625,
+      "learning_rate": 0.00017244252047910892,
+      "loss": 8.6973,
+      "step": 700
+    },
+    {
+      "epoch": 0.210121337673868,
+      "grad_norm": 0.462890625,
+      "learning_rate": 0.00017152434935448256,
+      "loss": 8.6743,
+      "step": 710
+    },
+    {
+      "epoch": 0.21308079313406333,
+      "grad_norm": 0.451171875,
+      "learning_rate": 0.0001705936635397259,
+      "loss": 8.7094,
+      "step": 720
+    },
+    {
+      "epoch": 0.21604024859425866,
+      "grad_norm": 0.57421875,
+      "learning_rate": 0.00016965062587790823,
+      "loss": 8.7353,
+      "step": 730
+    },
+    {
+      "epoch": 0.218999704054454,
+      "grad_norm": 0.5546875,
+      "learning_rate": 0.00016869540137331445,
+      "loss": 8.6939,
+      "step": 740
+    },
+    {
+      "epoch": 0.2219591595146493,
+      "grad_norm": 1.0703125,
+      "learning_rate": 0.00016772815716257412,
+      "loss": 8.7202,
+      "step": 750
+    },
+    {
+      "epoch": 0.22491861497484464,
+      "grad_norm": 0.51171875,
+      "learning_rate": 0.00016674906248541726,
+      "loss": 8.6779,
+      "step": 760
+    },
+    {
+      "epoch": 0.22787807043503996,
+      "grad_norm": 0.671875,
+      "learning_rate": 0.00016575828865506245,
+      "loss": 8.6627,
+      "step": 770
+    },
+    {
+      "epoch": 0.2308375258952353,
+      "grad_norm": 0.4375,
+      "learning_rate": 0.0001647560090282419,
+      "loss": 8.7348,
+      "step": 780
+    },
+    {
+      "epoch": 0.2337969813554306,
+      "grad_norm": 0.6875,
+      "learning_rate": 0.000163742398974869,
+      "loss": 8.7236,
+      "step": 790
+    },
+    {
+      "epoch": 0.23675643681562591,
+      "grad_norm": 1.4140625,
+      "learning_rate": 0.0001627176358473537,
+      "loss": 8.7416,
+      "step": 800
+    },
+    {
+      "epoch": 0.23675643681562591,
+      "eval_loss": 8.710856437683105,
+      "eval_runtime": 16.7859,
+      "eval_samples_per_second": 89.48,
+      "eval_steps_per_second": 22.4,
+      "step": 800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 20509072293888.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null