Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +393 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3001072512cf0094aa413adef722b38d30d55f1d695532e69f11d0e79e17410
 size 295488936

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd91de723bbd7ea7b7dfe87942ef4a89726bd5bdcfdd6abb72301f7a8513b562
 size 295488936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f6d21674325a8aaab36b8cf4642a6d5958787b319ca784ac8dfd0a1718a3756
 size 591203178

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e3bb5fe5d5fa250dea8b06ba61d861c69e2a49b2e59bd1f61d15f4b5e735dbc
 size 591203178

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3fcb8b7132fdda989f7bbb14a5bf464435849629fe731ccbc64c4724068a57e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ec28ea0c416565eeac14a0e9c944f185ac250f4ed4bd15c84ff77ed78ba9301
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e579802271638ff75fe7ba64560b3e21e4f7e26236b794157498845ba12537a4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2285ab56c032a195010949adc0c02d4df3cdbb2c2798776a12286c09cf74f9be
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0714540907466952,
   "eval_steps": 100,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1177,6 +1177,396 @@
       "eval_news_finetune_val_samples_per_second": 1.396,
       "eval_news_finetune_val_steps_per_second": 1.396,
       "step": 1500
     }
   ],
   "logging_steps": 10,
@@ -1196,7 +1586,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.14970883106816e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.4287245444801715,
   "eval_steps": 100,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_news_finetune_val_samples_per_second": 1.396,
       "eval_news_finetune_val_steps_per_second": 1.396,
       "step": 1500
+    },
+    {
+      "epoch": 1.0785994998213648,
+      "grad_norm": 1.7663507461547852,
+      "learning_rate": 8.082020186215156e-05,
+      "loss": 0.2407,
+      "step": 1510
+    },
+    {
+      "epoch": 1.0857449088960343,
+      "grad_norm": 1.2081632614135742,
+      "learning_rate": 8.049165944562316e-05,
+      "loss": 0.2483,
+      "step": 1520
+    },
+    {
+      "epoch": 1.092890317970704,
+      "grad_norm": 0.5045826435089111,
+      "learning_rate": 8.016100750576621e-05,
+      "loss": 0.2013,
+      "step": 1530
+    },
+    {
+      "epoch": 1.1000357270453733,
+      "grad_norm": 1.4456278085708618,
+      "learning_rate": 7.98282689182783e-05,
+      "loss": 0.2034,
+      "step": 1540
+    },
+    {
+      "epoch": 1.107181136120043,
+      "grad_norm": 1.1558668613433838,
+      "learning_rate": 7.949346670321891e-05,
+      "loss": 0.2386,
+      "step": 1550
+    },
+    {
+      "epoch": 1.1143265451947124,
+      "grad_norm": 1.4196126461029053,
+      "learning_rate": 7.915662402341664e-05,
+      "loss": 0.2299,
+      "step": 1560
+    },
+    {
+      "epoch": 1.1214719542693818,
+      "grad_norm": 0.9341222047805786,
+      "learning_rate": 7.88177641828669e-05,
+      "loss": 0.2105,
+      "step": 1570
+    },
+    {
+      "epoch": 1.1286173633440515,
+      "grad_norm": 1.066001296043396,
+      "learning_rate": 7.847691062511957e-05,
+      "loss": 0.1925,
+      "step": 1580
+    },
+    {
+      "epoch": 1.135762772418721,
+      "grad_norm": 0.7840182781219482,
+      "learning_rate": 7.813408693165704e-05,
+      "loss": 0.2425,
+      "step": 1590
+    },
+    {
+      "epoch": 1.1429081814933906,
+      "grad_norm": 0.983668327331543,
+      "learning_rate": 7.778931682026293e-05,
+      "loss": 0.2014,
+      "step": 1600
+    },
+    {
+      "epoch": 1.1429081814933906,
+      "eval_news_finetune_val_loss": 0.29564452171325684,
+      "eval_news_finetune_val_runtime": 1003.001,
+      "eval_news_finetune_val_samples_per_second": 1.396,
+      "eval_news_finetune_val_steps_per_second": 1.396,
+      "step": 1600
+    },
+    {
+      "epoch": 1.15005359056806,
+      "grad_norm": 1.63984215259552,
+      "learning_rate": 7.744262414338099e-05,
+      "loss": 0.2863,
+      "step": 1610
+    },
+    {
+      "epoch": 1.1571989996427297,
+      "grad_norm": 0.9211621284484863,
+      "learning_rate": 7.709403288646507e-05,
+      "loss": 0.2175,
+      "step": 1620
+    },
+    {
+      "epoch": 1.164344408717399,
+      "grad_norm": 1.3369996547698975,
+      "learning_rate": 7.67435671663196e-05,
+      "loss": 0.1893,
+      "step": 1630
+    },
+    {
+      "epoch": 1.1714898177920685,
+      "grad_norm": 0.7532891631126404,
+      "learning_rate": 7.63912512294312e-05,
+      "loss": 0.2483,
+      "step": 1640
+    },
+    {
+      "epoch": 1.1786352268667382,
+      "grad_norm": 1.0959442853927612,
+      "learning_rate": 7.603710945029119e-05,
+      "loss": 0.1888,
+      "step": 1650
+    },
+    {
+      "epoch": 1.1857806359414076,
+      "grad_norm": 0.9019472599029541,
+      "learning_rate": 7.568116632970922e-05,
+      "loss": 0.2144,
+      "step": 1660
+    },
+    {
+      "epoch": 1.1929260450160772,
+      "grad_norm": 1.1219818592071533,
+      "learning_rate": 7.532344649311829e-05,
+      "loss": 0.191,
+      "step": 1670
+    },
+    {
+      "epoch": 1.2000714540907467,
+      "grad_norm": 1.0829100608825684,
+      "learning_rate": 7.496397468887106e-05,
+      "loss": 0.2762,
+      "step": 1680
+    },
+    {
+      "epoch": 1.2072168631654163,
+      "grad_norm": 0.7855832576751709,
+      "learning_rate": 7.460277578652759e-05,
+      "loss": 0.157,
+      "step": 1690
+    },
+    {
+      "epoch": 1.2143622722400857,
+      "grad_norm": 2.407999038696289,
+      "learning_rate": 7.423987477513488e-05,
+      "loss": 0.2627,
+      "step": 1700
+    },
+    {
+      "epoch": 1.2143622722400857,
+      "eval_news_finetune_val_loss": 0.28248873353004456,
+      "eval_news_finetune_val_runtime": 1003.1081,
+      "eval_news_finetune_val_samples_per_second": 1.396,
+      "eval_news_finetune_val_steps_per_second": 1.396,
+      "step": 1700
+    },
+    {
+      "epoch": 1.2215076813147552,
+      "grad_norm": 1.5500895977020264,
+      "learning_rate": 7.387529676149799e-05,
+      "loss": 0.1477,
+      "step": 1710
+    },
+    {
+      "epoch": 1.2286530903894248,
+      "grad_norm": 1.5599130392074585,
+      "learning_rate": 7.350906696844307e-05,
+      "loss": 0.1942,
+      "step": 1720
+    },
+    {
+      "epoch": 1.2357984994640943,
+      "grad_norm": 1.6327091455459595,
+      "learning_rate": 7.314121073307229e-05,
+      "loss": 0.2,
+      "step": 1730
+    },
+    {
+      "epoch": 1.242943908538764,
+      "grad_norm": 0.6044666767120361,
+      "learning_rate": 7.277175350501111e-05,
+      "loss": 0.185,
+      "step": 1740
+    },
+    {
+      "epoch": 1.2500893176134333,
+      "grad_norm": 1.317089319229126,
+      "learning_rate": 7.240072084464729e-05,
+      "loss": 0.196,
+      "step": 1750
+    },
+    {
+      "epoch": 1.257234726688103,
+      "grad_norm": 1.089105486869812,
+      "learning_rate": 7.202813842136283e-05,
+      "loss": 0.1322,
+      "step": 1760
+    },
+    {
+      "epoch": 1.2643801357627724,
+      "grad_norm": 1.4972888231277466,
+      "learning_rate": 7.165403201175787e-05,
+      "loss": 0.2176,
+      "step": 1770
+    },
+    {
+      "epoch": 1.2715255448374418,
+      "grad_norm": 1.4998830556869507,
+      "learning_rate": 7.127842749786747e-05,
+      "loss": 0.218,
+      "step": 1780
+    },
+    {
+      "epoch": 1.2786709539121115,
+      "grad_norm": 0.9759517908096313,
+      "learning_rate": 7.090135086537095e-05,
+      "loss": 0.1653,
+      "step": 1790
+    },
+    {
+      "epoch": 1.285816362986781,
+      "grad_norm": 0.9713583588600159,
+      "learning_rate": 7.052282820179412e-05,
+      "loss": 0.175,
+      "step": 1800
+    },
+    {
+      "epoch": 1.285816362986781,
+      "eval_news_finetune_val_loss": 0.2936909794807434,
+      "eval_news_finetune_val_runtime": 1003.12,
+      "eval_news_finetune_val_samples_per_second": 1.396,
+      "eval_news_finetune_val_steps_per_second": 1.396,
+      "step": 1800
+    },
+    {
+      "epoch": 1.2929617720614506,
+      "grad_norm": 0.6328814625740051,
+      "learning_rate": 7.014288569470446e-05,
+      "loss": 0.1727,
+      "step": 1810
+    },
+    {
+      "epoch": 1.30010718113612,
+      "grad_norm": 1.622104525566101,
+      "learning_rate": 6.976154962989934e-05,
+      "loss": 0.2363,
+      "step": 1820
+    },
+    {
+      "epoch": 1.3072525902107897,
+      "grad_norm": 1.8254674673080444,
+      "learning_rate": 6.937884638958757e-05,
+      "loss": 0.1897,
+      "step": 1830
+    },
+    {
+      "epoch": 1.314397999285459,
+      "grad_norm": 0.8813793063163757,
+      "learning_rate": 6.899480245056396e-05,
+      "loss": 0.2029,
+      "step": 1840
+    },
+    {
+      "epoch": 1.3215434083601285,
+      "grad_norm": 0.7675999999046326,
+      "learning_rate": 6.860944438237788e-05,
+      "loss": 0.2025,
+      "step": 1850
+    },
+    {
+      "epoch": 1.3286888174347982,
+      "grad_norm": 1.1973013877868652,
+      "learning_rate": 6.82227988454948e-05,
+      "loss": 0.2317,
+      "step": 1860
+    },
+    {
+      "epoch": 1.3358342265094676,
+      "grad_norm": 0.7864009737968445,
+      "learning_rate": 6.783489258945195e-05,
+      "loss": 0.2318,
+      "step": 1870
+    },
+    {
+      "epoch": 1.3429796355841372,
+      "grad_norm": 1.0866330862045288,
+      "learning_rate": 6.74457524510077e-05,
+      "loss": 0.1871,
+      "step": 1880
+    },
+    {
+      "epoch": 1.3501250446588067,
+      "grad_norm": 0.8745126724243164,
+      "learning_rate": 6.705540535228485e-05,
+      "loss": 0.211,
+      "step": 1890
+    },
+    {
+      "epoch": 1.3572704537334763,
+      "grad_norm": 1.3401581048965454,
+      "learning_rate": 6.66638782989081e-05,
+      "loss": 0.2307,
+      "step": 1900
+    },
+    {
+      "epoch": 1.3572704537334763,
+      "eval_news_finetune_val_loss": 0.2787444591522217,
+      "eval_news_finetune_val_runtime": 1002.9344,
+      "eval_news_finetune_val_samples_per_second": 1.396,
+      "eval_news_finetune_val_steps_per_second": 1.396,
+      "step": 1900
+    },
+    {
+      "epoch": 1.3644158628081458,
+      "grad_norm": 0.6149284839630127,
+      "learning_rate": 6.627119837813564e-05,
+      "loss": 0.2128,
+      "step": 1910
+    },
+    {
+      "epoch": 1.3715612718828152,
+      "grad_norm": 1.7847625017166138,
+      "learning_rate": 6.587739275698525e-05,
+      "loss": 0.1551,
+      "step": 1920
+    },
+    {
+      "epoch": 1.3787066809574848,
+      "grad_norm": 1.1973716020584106,
+      "learning_rate": 6.54824886803547e-05,
+      "loss": 0.2335,
+      "step": 1930
+    },
+    {
+      "epoch": 1.3858520900321543,
+      "grad_norm": 1.5757859945297241,
+      "learning_rate": 6.508651346913687e-05,
+      "loss": 0.1504,
+      "step": 1940
+    },
+    {
+      "epoch": 1.392997499106824,
+      "grad_norm": 1.7269341945648193,
+      "learning_rate": 6.468949451832968e-05,
+      "loss": 0.2679,
+      "step": 1950
+    },
+    {
+      "epoch": 1.4001429081814933,
+      "grad_norm": 1.6860129833221436,
+      "learning_rate": 6.429145929514063e-05,
+      "loss": 0.1942,
+      "step": 1960
+    },
+    {
+      "epoch": 1.407288317256163,
+      "grad_norm": 1.1732631921768188,
+      "learning_rate": 6.389243533708671e-05,
+      "loss": 0.2025,
+      "step": 1970
+    },
+    {
+      "epoch": 1.4144337263308324,
+      "grad_norm": 0.9073033332824707,
+      "learning_rate": 6.349245025008912e-05,
+      "loss": 0.1836,
+      "step": 1980
+    },
+    {
+      "epoch": 1.4215791354055018,
+      "grad_norm": 1.133843183517456,
+      "learning_rate": 6.309153170656342e-05,
+      "loss": 0.1526,
+      "step": 1990
+    },
+    {
+      "epoch": 1.4287245444801715,
+      "grad_norm": 2.656296968460083,
+      "learning_rate": 6.268970744350515e-05,
+      "loss": 0.1939,
+      "step": 2000
+    },
+    {
+      "epoch": 1.4287245444801715,
+      "eval_news_finetune_val_loss": 0.27414408326148987,
+      "eval_news_finetune_val_runtime": 1003.0949,
+      "eval_news_finetune_val_samples_per_second": 1.396,
+      "eval_news_finetune_val_steps_per_second": 1.396,
+      "step": 2000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.538125336973312e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null