Training in progress, step 19500, checkpoint

Browse files

Files changed (5) hide show

.gitattributes +1 -0
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +273 -3

.gitattributes CHANGED Viewed

@@ -35,3 +35,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoint-19500/tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoint-19500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/tokenizer.json filter=lfs diff=lfs merge=lfs -text

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86a687945c356111f110eb75094ca4616193d42a65db6db7ed2a691faef0b93e
 size 3541119728

 version https://git-lfs.github.com/spec/v1
+oid sha256:dec21d65cc35c5b2575c9f28438a7f3e71903280791cff6024d6130cc74f123b
 size 3541119728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d9df83617495c79e4dc8f3ffe12c38a59032f6d8dda39ca67cd8e1645830cbd
 size 778374186

 version https://git-lfs.github.com/spec/v1
+oid sha256:2251652726c40e6dfcb11baba340311083aebf1f86c81a23f7dc9d79eac124bb
 size 778374186

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f93ad49f130faa5ef7550fd7a655f94d7bbf6af793eda1fc6b0800655d80e2cf
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff6a16ef822fb8170c7c05fd4d1180b525bf072c302b69d261a30b0549778c78
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9162600365072359,
   "eval_steps": 500,
-  "global_step": 19200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -17288,6 +17288,276 @@
       "mean_token_accuracy": 0.860031221807003,
       "num_tokens": 31894612.0,
       "step": 19200
     }
   ],
   "logging_steps": 10,
@@ -17307,7 +17577,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.182831922580398e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9305765995776614,
   "eval_steps": 500,
+  "global_step": 19500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.860031221807003,
       "num_tokens": 31894612.0,
       "step": 19200
+    },
+    {
+      "epoch": 0.91673725527625,
+      "grad_norm": 0.37166985869407654,
+      "learning_rate": 1.0833214030064425e-05,
+      "loss": 0.5797,
+      "mean_token_accuracy": 0.8837983384728432,
+      "num_tokens": 31910332.0,
+      "step": 19210
+    },
+    {
+      "epoch": 0.9172144740452642,
+      "grad_norm": 0.3820003271102905,
+      "learning_rate": 1.0828441899308041e-05,
+      "loss": 0.611,
+      "mean_token_accuracy": 0.8845193833112717,
+      "num_tokens": 31926866.0,
+      "step": 19220
+    },
+    {
+      "epoch": 0.9176916928142784,
+      "grad_norm": 0.3208041489124298,
+      "learning_rate": 1.082366976855166e-05,
+      "loss": 0.6218,
+      "mean_token_accuracy": 0.8753577992320061,
+      "num_tokens": 31944162.0,
+      "step": 19230
+    },
+    {
+      "epoch": 0.9181689115832926,
+      "grad_norm": 0.4074268639087677,
+      "learning_rate": 1.0818897637795276e-05,
+      "loss": 0.5728,
+      "mean_token_accuracy": 0.8923567131161689,
+      "num_tokens": 31959882.0,
+      "step": 19240
+    },
+    {
+      "epoch": 0.9186461303523068,
+      "grad_norm": 0.4497404992580414,
+      "learning_rate": 1.0814125507038893e-05,
+      "loss": 0.5369,
+      "mean_token_accuracy": 0.8921236410737038,
+      "num_tokens": 31974914.0,
+      "step": 19250
+    },
+    {
+      "epoch": 0.919123349121321,
+      "grad_norm": 0.38203802704811096,
+      "learning_rate": 1.0809353376282511e-05,
+      "loss": 0.6455,
+      "mean_token_accuracy": 0.8690215855836868,
+      "num_tokens": 31990678.0,
+      "step": 19260
+    },
+    {
+      "epoch": 0.9196005678903352,
+      "grad_norm": 0.32773557305336,
+      "learning_rate": 1.080458124552613e-05,
+      "loss": 0.669,
+      "mean_token_accuracy": 0.870218101143837,
+      "num_tokens": 32007764.0,
+      "step": 19270
+    },
+    {
+      "epoch": 0.9200777866593494,
+      "grad_norm": 0.4381488561630249,
+      "learning_rate": 1.0799809114769746e-05,
+      "loss": 0.6339,
+      "mean_token_accuracy": 0.8728301003575325,
+      "num_tokens": 32024411.0,
+      "step": 19280
+    },
+    {
+      "epoch": 0.9205550054283635,
+      "grad_norm": 0.4450734257698059,
+      "learning_rate": 1.0795036984013363e-05,
+      "loss": 0.777,
+      "mean_token_accuracy": 0.8429723799228668,
+      "num_tokens": 32043443.0,
+      "step": 19290
+    },
+    {
+      "epoch": 0.9210322241973777,
+      "grad_norm": 0.31893327832221985,
+      "learning_rate": 1.079026485325698e-05,
+      "loss": 0.7236,
+      "mean_token_accuracy": 0.859081144630909,
+      "num_tokens": 32062229.0,
+      "step": 19300
+    },
+    {
+      "epoch": 0.9215094429663919,
+      "grad_norm": 0.3973105251789093,
+      "learning_rate": 1.0785492722500596e-05,
+      "loss": 0.5872,
+      "mean_token_accuracy": 0.871922855079174,
+      "num_tokens": 32079383.0,
+      "step": 19310
+    },
+    {
+      "epoch": 0.921986661735406,
+      "grad_norm": 0.295210063457489,
+      "learning_rate": 1.0780720591744213e-05,
+      "loss": 0.5652,
+      "mean_token_accuracy": 0.8859059333801269,
+      "num_tokens": 32093751.0,
+      "step": 19320
+    },
+    {
+      "epoch": 0.9224638805044202,
+      "grad_norm": 0.3628122806549072,
+      "learning_rate": 1.0775948460987833e-05,
+      "loss": 0.6767,
+      "mean_token_accuracy": 0.8768541231751442,
+      "num_tokens": 32109295.0,
+      "step": 19330
+    },
+    {
+      "epoch": 0.9229410992734344,
+      "grad_norm": 0.3489735424518585,
+      "learning_rate": 1.077117633023145e-05,
+      "loss": 0.7395,
+      "mean_token_accuracy": 0.8563176363706588,
+      "num_tokens": 32127172.0,
+      "step": 19340
+    },
+    {
+      "epoch": 0.9234183180424486,
+      "grad_norm": 0.5454393625259399,
+      "learning_rate": 1.0766404199475067e-05,
+      "loss": 0.7232,
+      "mean_token_accuracy": 0.8605073913931847,
+      "num_tokens": 32145650.0,
+      "step": 19350
+    },
+    {
+      "epoch": 0.9238955368114627,
+      "grad_norm": 0.5151296854019165,
+      "learning_rate": 1.0761632068718683e-05,
+      "loss": 0.7183,
+      "mean_token_accuracy": 0.8582200676202774,
+      "num_tokens": 32163210.0,
+      "step": 19360
+    },
+    {
+      "epoch": 0.9243727555804769,
+      "grad_norm": 0.4276362359523773,
+      "learning_rate": 1.07568599379623e-05,
+      "loss": 0.617,
+      "mean_token_accuracy": 0.8801989361643792,
+      "num_tokens": 32179260.0,
+      "step": 19370
+    },
+    {
+      "epoch": 0.9248499743494911,
+      "grad_norm": 0.3694617450237274,
+      "learning_rate": 1.0752087807205918e-05,
+      "loss": 0.6555,
+      "mean_token_accuracy": 0.8701679021120071,
+      "num_tokens": 32196081.0,
+      "step": 19380
+    },
+    {
+      "epoch": 0.9253271931185053,
+      "grad_norm": 0.34691864252090454,
+      "learning_rate": 1.0747315676449535e-05,
+      "loss": 0.6075,
+      "mean_token_accuracy": 0.886542621254921,
+      "num_tokens": 32212271.0,
+      "step": 19390
+    },
+    {
+      "epoch": 0.9258044118875195,
+      "grad_norm": 0.31945309042930603,
+      "learning_rate": 1.0742543545693153e-05,
+      "loss": 0.5085,
+      "mean_token_accuracy": 0.9026155725121499,
+      "num_tokens": 32227305.0,
+      "step": 19400
+    },
+    {
+      "epoch": 0.9262816306565337,
+      "grad_norm": 0.3226480782032013,
+      "learning_rate": 1.073777141493677e-05,
+      "loss": 0.6435,
+      "mean_token_accuracy": 0.8802873864769936,
+      "num_tokens": 32243276.0,
+      "step": 19410
+    },
+    {
+      "epoch": 0.9267588494255479,
+      "grad_norm": 0.44026854634284973,
+      "learning_rate": 1.0732999284180388e-05,
+      "loss": 0.622,
+      "mean_token_accuracy": 0.8743364945054054,
+      "num_tokens": 32260578.0,
+      "step": 19420
+    },
+    {
+      "epoch": 0.9272360681945621,
+      "grad_norm": 0.29511240124702454,
+      "learning_rate": 1.0728227153424005e-05,
+      "loss": 0.6461,
+      "mean_token_accuracy": 0.8643220156431198,
+      "num_tokens": 32277850.0,
+      "step": 19430
+    },
+    {
+      "epoch": 0.9277132869635762,
+      "grad_norm": 0.3299635946750641,
+      "learning_rate": 1.0723455022667622e-05,
+      "loss": 0.6406,
+      "mean_token_accuracy": 0.8653289705514908,
+      "num_tokens": 32295838.0,
+      "step": 19440
+    },
+    {
+      "epoch": 0.9281905057325904,
+      "grad_norm": 0.3476797044277191,
+      "learning_rate": 1.0718682891911238e-05,
+      "loss": 0.6175,
+      "mean_token_accuracy": 0.8700507491827011,
+      "num_tokens": 32312699.0,
+      "step": 19450
+    },
+    {
+      "epoch": 0.9286677245016046,
+      "grad_norm": 0.4377439320087433,
+      "learning_rate": 1.0713910761154858e-05,
+      "loss": 0.5511,
+      "mean_token_accuracy": 0.8886492669582366,
+      "num_tokens": 32328353.0,
+      "step": 19460
+    },
+    {
+      "epoch": 0.9291449432706188,
+      "grad_norm": 0.41651830077171326,
+      "learning_rate": 1.0709138630398475e-05,
+      "loss": 0.6338,
+      "mean_token_accuracy": 0.8774713531136513,
+      "num_tokens": 32343869.0,
+      "step": 19470
+    },
+    {
+      "epoch": 0.929622162039633,
+      "grad_norm": 0.45593252778053284,
+      "learning_rate": 1.0704366499642092e-05,
+      "loss": 0.6098,
+      "mean_token_accuracy": 0.8867579936981201,
+      "num_tokens": 32360245.0,
+      "step": 19480
+    },
+    {
+      "epoch": 0.9300993808086472,
+      "grad_norm": 0.5481681227684021,
+      "learning_rate": 1.0699594368885708e-05,
+      "loss": 0.7036,
+      "mean_token_accuracy": 0.8724937483668327,
+      "num_tokens": 32376506.0,
+      "step": 19490
+    },
+    {
+      "epoch": 0.9305765995776614,
+      "grad_norm": 0.4363495409488678,
+      "learning_rate": 1.0694822238129325e-05,
+      "loss": 0.6826,
+      "mean_token_accuracy": 0.8660887077450752,
+      "num_tokens": 32394083.0,
+      "step": 19500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 7.29501813251924e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null