amuvarma
/

conversation-7.0

Safetensors

llama

Model card Files Files and versions Community

amuvarma commited on Jun 1

Commit

2e21557

verified ·

1 Parent(s): f989e9f

Update model

Browse files

Files changed (1) hide show

trainer_state.json +1149 -0

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1149 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 124,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.008064516129032258,
+      "grad_norm": 82.1250991821289,
+      "learning_rate": 4.999197688241076e-07,
+      "loss": 3.3188,
+      "mean_token_accuracy": 0.4619899392127991,
+      "num_tokens": 3582.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.016129032258064516,
+      "grad_norm": 85.84162139892578,
+      "learning_rate": 4.996791267927632e-07,
+      "loss": 3.1019,
+      "mean_token_accuracy": 0.48747536540031433,
+      "num_tokens": 7139.0,
+      "step": 2
+    },
+    {
+      "epoch": 0.024193548387096774,
+      "grad_norm": 77.11351776123047,
+      "learning_rate": 4.992782283619118e-07,
+      "loss": 3.0994,
+      "mean_token_accuracy": 0.46798279881477356,
+      "num_tokens": 11094.0,
+      "step": 3
+    },
+    {
+      "epoch": 0.03225806451612903,
+      "grad_norm": 74.11935424804688,
+      "learning_rate": 4.987173308479737e-07,
+      "loss": 3.0893,
+      "mean_token_accuracy": 0.4673512279987335,
+      "num_tokens": 14896.0,
+      "step": 4
+    },
+    {
+      "epoch": 0.04032258064516129,
+      "grad_norm": 58.4622917175293,
+      "learning_rate": 4.979967942626857e-07,
+      "loss": 2.9759,
+      "mean_token_accuracy": 0.4749932289123535,
+      "num_tokens": 18599.0,
+      "step": 5
+    },
+    {
+      "epoch": 0.04838709677419355,
+      "grad_norm": 71.54608154296875,
+      "learning_rate": 4.971170810820278e-07,
+      "loss": 2.8627,
+      "mean_token_accuracy": 0.489130437374115,
+      "num_tokens": 22099.0,
+      "step": 6
+    },
+    {
+      "epoch": 0.056451612903225805,
+      "grad_norm": 67.31790924072266,
+      "learning_rate": 4.960787559493836e-07,
+      "loss": 2.9878,
+      "mean_token_accuracy": 0.49747729301452637,
+      "num_tokens": 25076.0,
+      "step": 7
+    },
+    {
+      "epoch": 0.06451612903225806,
+      "grad_norm": 51.87714767456055,
+      "learning_rate": 4.948824853131236e-07,
+      "loss": 2.8431,
+      "mean_token_accuracy": 0.4804079532623291,
+      "num_tokens": 28806.0,
+      "step": 8
+    },
+    {
+      "epoch": 0.07258064516129033,
+      "grad_norm": 50.492496490478516,
+      "learning_rate": 4.935290369988468e-07,
+      "loss": 2.7265,
+      "mean_token_accuracy": 0.4897351861000061,
+      "num_tokens": 32171.0,
+      "step": 9
+    },
+    {
+      "epoch": 0.08064516129032258,
+      "grad_norm": 50.19187927246094,
+      "learning_rate": 4.920192797165511e-07,
+      "loss": 2.5757,
+      "mean_token_accuracy": 0.5013927817344666,
+      "num_tokens": 35765.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.08870967741935484,
+      "grad_norm": 53.92109298706055,
+      "learning_rate": 4.903541825030531e-07,
+      "loss": 2.5328,
+      "mean_token_accuracy": 0.5096573233604431,
+      "num_tokens": 38979.0,
+      "step": 11
+    },
+    {
+      "epoch": 0.0967741935483871,
+      "grad_norm": 131.06643676757812,
+      "learning_rate": 4.885348141000122e-07,
+      "loss": 2.4167,
+      "mean_token_accuracy": 0.507402777671814,
+      "num_tokens": 42968.0,
+      "step": 12
+    },
+    {
+      "epoch": 0.10483870967741936,
+      "grad_norm": 42.45437240600586,
+      "learning_rate": 4.865623422679592e-07,
+      "loss": 2.3694,
+      "mean_token_accuracy": 0.5128635168075562,
+      "num_tokens": 46548.0,
+      "step": 13
+    },
+    {
+      "epoch": 0.11290322580645161,
+      "grad_norm": 40.65642547607422,
+      "learning_rate": 4.844380330367701e-07,
+      "loss": 2.2659,
+      "mean_token_accuracy": 0.5277366042137146,
+      "num_tokens": 49923.0,
+      "step": 14
+    },
+    {
+      "epoch": 0.12096774193548387,
+      "grad_norm": 40.563663482666016,
+      "learning_rate": 4.821632498930656e-07,
+      "loss": 2.325,
+      "mean_token_accuracy": 0.5243242979049683,
+      "num_tokens": 53257.0,
+      "step": 15
+    },
+    {
+      "epoch": 0.12903225806451613,
+      "grad_norm": 29.71602439880371,
+      "learning_rate": 4.797394529050577e-07,
+      "loss": 2.2635,
+      "mean_token_accuracy": 0.5110940933227539,
+      "num_tokens": 57182.0,
+      "step": 16
+    },
+    {
+      "epoch": 0.13709677419354838,
+      "grad_norm": 36.85178756713867,
+      "learning_rate": 4.771681977854062e-07,
+      "loss": 2.2947,
+      "mean_token_accuracy": 0.49719932675361633,
+      "num_tokens": 60221.0,
+      "step": 17
+    },
+    {
+      "epoch": 0.14516129032258066,
+      "grad_norm": 40.669857025146484,
+      "learning_rate": 4.744511348926854e-07,
+      "loss": 2.1618,
+      "mean_token_accuracy": 0.5076530575752258,
+      "num_tokens": 63753.0,
+      "step": 18
+    },
+    {
+      "epoch": 0.1532258064516129,
+      "grad_norm": 31.07614517211914,
+      "learning_rate": 4.7159000817210204e-07,
+      "loss": 2.2338,
+      "mean_token_accuracy": 0.5,
+      "num_tokens": 67491.0,
+      "step": 19
+    },
+    {
+      "epoch": 0.16129032258064516,
+      "grad_norm": 39.705753326416016,
+      "learning_rate": 4.685866540361455e-07,
+      "loss": 2.1938,
+      "mean_token_accuracy": 0.5107913613319397,
+      "num_tokens": 70831.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.1693548387096774,
+      "grad_norm": 40.17426681518555,
+      "learning_rate": 4.654430001858874e-07,
+      "loss": 2.1139,
+      "mean_token_accuracy": 0.5218411087989807,
+      "num_tokens": 74246.0,
+      "step": 21
+    },
+    {
+      "epoch": 0.1774193548387097,
+      "grad_norm": 34.13058853149414,
+      "learning_rate": 4.6216106437368775e-07,
+      "loss": 2.0303,
+      "mean_token_accuracy": 0.5338891744613647,
+      "num_tokens": 77968.0,
+      "step": 22
+    },
+    {
+      "epoch": 0.18548387096774194,
+      "grad_norm": 25.600557327270508,
+      "learning_rate": 4.5874295310810185e-07,
+      "loss": 2.0356,
+      "mean_token_accuracy": 0.515510618686676,
+      "num_tokens": 80841.0,
+      "step": 23
+    },
+    {
+      "epoch": 0.1935483870967742,
+      "grad_norm": 14.962992668151855,
+      "learning_rate": 4.551908603018191e-07,
+      "loss": 1.9918,
+      "mean_token_accuracy": 0.5420023202896118,
+      "num_tokens": 84321.0,
+      "step": 24
+    },
+    {
+      "epoch": 0.20161290322580644,
+      "grad_norm": 10.336100578308105,
+      "learning_rate": 4.5150706586350127e-07,
+      "loss": 2.0338,
+      "mean_token_accuracy": 0.5391054153442383,
+      "num_tokens": 88148.0,
+      "step": 25
+    },
+    {
+      "epoch": 0.20967741935483872,
+      "grad_norm": 11.232644081115723,
+      "learning_rate": 4.476939342344246e-07,
+      "loss": 2.0344,
+      "mean_token_accuracy": 0.5330302119255066,
+      "num_tokens": 91891.0,
+      "step": 26
+    },
+    {
+      "epoch": 0.21774193548387097,
+      "grad_norm": 8.730783462524414,
+      "learning_rate": 4.437539128708647e-07,
+      "loss": 2.0291,
+      "mean_token_accuracy": 0.5340464115142822,
+      "num_tokens": 95728.0,
+      "step": 27
+    },
+    {
+      "epoch": 0.22580645161290322,
+      "grad_norm": 9.901666641235352,
+      "learning_rate": 4.396895306731977e-07,
+      "loss": 1.9593,
+      "mean_token_accuracy": 0.5452925562858582,
+      "num_tokens": 99099.0,
+      "step": 28
+    },
+    {
+      "epoch": 0.23387096774193547,
+      "grad_norm": 8.69468879699707,
+      "learning_rate": 4.355033963627277e-07,
+      "loss": 1.9023,
+      "mean_token_accuracy": 0.5690703988075256,
+      "num_tokens": 102556.0,
+      "step": 29
+    },
+    {
+      "epoch": 0.24193548387096775,
+      "grad_norm": 8.984487533569336,
+      "learning_rate": 4.3119819680727996e-07,
+      "loss": 1.938,
+      "mean_token_accuracy": 0.5465425252914429,
+      "num_tokens": 106320.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 9.061673164367676,
+      "learning_rate": 4.2677669529663686e-07,
+      "loss": 1.9321,
+      "mean_token_accuracy": 0.5477131605148315,
+      "num_tokens": 109866.0,
+      "step": 31
+    },
+    {
+      "epoch": 0.25806451612903225,
+      "grad_norm": 8.572089195251465,
+      "learning_rate": 4.2224172976892166e-07,
+      "loss": 1.9352,
+      "mean_token_accuracy": 0.5485040545463562,
+      "num_tokens": 113179.0,
+      "step": 32
+    },
+    {
+      "epoch": 0.2661290322580645,
+      "grad_norm": 8.716224670410156,
+      "learning_rate": 4.175962109890696e-07,
+      "loss": 1.8432,
+      "mean_token_accuracy": 0.550000011920929,
+      "num_tokens": 116683.0,
+      "step": 33
+    },
+    {
+      "epoch": 0.27419354838709675,
+      "grad_norm": 11.871490478515625,
+      "learning_rate": 4.128431206805556e-07,
+      "loss": 1.8008,
+      "mean_token_accuracy": 0.5759973526000977,
+      "num_tokens": 119720.0,
+      "step": 34
+    },
+    {
+      "epoch": 0.28225806451612906,
+      "grad_norm": 9.3665132522583,
+      "learning_rate": 4.0798550961157595e-07,
+      "loss": 1.8901,
+      "mean_token_accuracy": 0.552654504776001,
+      "num_tokens": 123171.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.2903225806451613,
+      "grad_norm": 9.704719543457031,
+      "learning_rate": 4.030264956369157e-07,
+      "loss": 1.8121,
+      "mean_token_accuracy": 0.5599347352981567,
+      "num_tokens": 126854.0,
+      "step": 36
+    },
+    {
+      "epoch": 0.29838709677419356,
+      "grad_norm": 10.195917129516602,
+      "learning_rate": 3.9796926169675424e-07,
+      "loss": 1.885,
+      "mean_token_accuracy": 0.5533230304718018,
+      "num_tokens": 130740.0,
+      "step": 37
+    },
+    {
+      "epoch": 0.3064516129032258,
+      "grad_norm": 9.518072128295898,
+      "learning_rate": 3.9281705377369805e-07,
+      "loss": 1.9059,
+      "mean_token_accuracy": 0.5531600713729858,
+      "num_tokens": 134130.0,
+      "step": 38
+    },
+    {
+      "epoch": 0.31451612903225806,
+      "grad_norm": 7.841033458709717,
+      "learning_rate": 3.875731788093478e-07,
+      "loss": 1.8547,
+      "mean_token_accuracy": 0.5586956739425659,
+      "num_tokens": 137814.0,
+      "step": 39
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 10.610803604125977,
+      "learning_rate": 3.822410025817406e-07,
+      "loss": 1.8147,
+      "mean_token_accuracy": 0.5637563467025757,
+      "num_tokens": 141151.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.33064516129032256,
+      "grad_norm": 10.157751083374023,
+      "learning_rate": 3.768239475450268e-07,
+      "loss": 1.8701,
+      "mean_token_accuracy": 0.549227237701416,
+      "num_tokens": 144649.0,
+      "step": 41
+    },
+    {
+      "epoch": 0.3387096774193548,
+      "grad_norm": 8.627851486206055,
+      "learning_rate": 3.713254906327703e-07,
+      "loss": 1.8508,
+      "mean_token_accuracy": 0.557908833026886,
+      "num_tokens": 148383.0,
+      "step": 42
+    },
+    {
+      "epoch": 0.3467741935483871,
+      "grad_norm": 7.615920543670654,
+      "learning_rate": 3.657491610262802e-07,
+      "loss": 1.8584,
+      "mean_token_accuracy": 0.5659451484680176,
+      "num_tokens": 151852.0,
+      "step": 43
+    },
+    {
+      "epoch": 0.3548387096774194,
+      "grad_norm": 8.200079917907715,
+      "learning_rate": 3.6009853788940856e-07,
+      "loss": 1.7812,
+      "mean_token_accuracy": 0.5586913228034973,
+      "num_tokens": 155860.0,
+      "step": 44
+    },
+    {
+      "epoch": 0.3629032258064516,
+      "grad_norm": 7.837497234344482,
+      "learning_rate": 3.543772480712658e-07,
+      "loss": 1.7635,
+      "mean_token_accuracy": 0.5686478018760681,
+      "num_tokens": 159717.0,
+      "step": 45
+    },
+    {
+      "epoch": 0.3709677419354839,
+      "grad_norm": 8.181253433227539,
+      "learning_rate": 3.4858896377832965e-07,
+      "loss": 1.7004,
+      "mean_token_accuracy": 0.5794797539710999,
+      "num_tokens": 163181.0,
+      "step": 46
+    },
+    {
+      "epoch": 0.3790322580645161,
+      "grad_norm": 6.781255722045898,
+      "learning_rate": 3.42737400217442e-07,
+      "loss": 1.8779,
+      "mean_token_accuracy": 0.5520778298377991,
+      "num_tokens": 166987.0,
+      "step": 47
+    },
+    {
+      "epoch": 0.3870967741935484,
+      "grad_norm": 7.666635036468506,
+      "learning_rate": 3.36826313211205e-07,
+      "loss": 1.8343,
+      "mean_token_accuracy": 0.5685471296310425,
+      "num_tokens": 170164.0,
+      "step": 48
+    },
+    {
+      "epoch": 0.3951612903225806,
+      "grad_norm": 8.650765419006348,
+      "learning_rate": 3.308594967873095e-07,
+      "loss": 1.7022,
+      "mean_token_accuracy": 0.5841107368469238,
+      "num_tokens": 173491.0,
+      "step": 49
+    },
+    {
+      "epoch": 0.4032258064516129,
+      "grad_norm": 7.792832851409912,
+      "learning_rate": 3.2484078074333956e-07,
+      "loss": 1.7076,
+      "mean_token_accuracy": 0.5851721167564392,
+      "num_tokens": 176894.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.4112903225806452,
+      "grad_norm": 9.63578987121582,
+      "learning_rate": 3.1877402818861946e-07,
+      "loss": 1.7369,
+      "mean_token_accuracy": 0.576729416847229,
+      "num_tokens": 180671.0,
+      "step": 51
+    },
+    {
+      "epoch": 0.41935483870967744,
+      "grad_norm": 7.068120002746582,
+      "learning_rate": 3.126631330646801e-07,
+      "loss": 1.7723,
+      "mean_token_accuracy": 0.5763046741485596,
+      "num_tokens": 184220.0,
+      "step": 52
+    },
+    {
+      "epoch": 0.4274193548387097,
+      "grad_norm": 7.844783782958984,
+      "learning_rate": 3.065120176459337e-07,
+      "loss": 1.7888,
+      "mean_token_accuracy": 0.5663133859634399,
+      "num_tokens": 187715.0,
+      "step": 53
+    },
+    {
+      "epoch": 0.43548387096774194,
+      "grad_norm": 6.963573932647705,
+      "learning_rate": 3.00324630022165e-07,
+      "loss": 1.6962,
+      "mean_token_accuracy": 0.5830934047698975,
+      "num_tokens": 191540.0,
+      "step": 54
+    },
+    {
+      "epoch": 0.4435483870967742,
+      "grad_norm": 7.507209777832031,
+      "learning_rate": 2.9410494156445216e-07,
+      "loss": 1.7422,
+      "mean_token_accuracy": 0.5805253982543945,
+      "num_tokens": 195046.0,
+      "step": 55
+    },
+    {
+      "epoch": 0.45161290322580644,
+      "grad_norm": 7.959713459014893,
+      "learning_rate": 2.8785694437614416e-07,
+      "loss": 1.7368,
+      "mean_token_accuracy": 0.5760632753372192,
+      "num_tokens": 198718.0,
+      "step": 56
+    },
+    {
+      "epoch": 0.4596774193548387,
+      "grad_norm": 7.953831195831299,
+      "learning_rate": 2.8158464873053234e-07,
+      "loss": 1.7707,
+      "mean_token_accuracy": 0.5705274939537048,
+      "num_tokens": 202210.0,
+      "step": 57
+    },
+    {
+      "epoch": 0.46774193548387094,
+      "grad_norm": 8.072004318237305,
+      "learning_rate": 2.7529208049685804e-07,
+      "loss": 1.7197,
+      "mean_token_accuracy": 0.5858024954795837,
+      "num_tokens": 205454.0,
+      "step": 58
+    },
+    {
+      "epoch": 0.47580645161290325,
+      "grad_norm": 8.691699028015137,
+      "learning_rate": 2.6898327855631154e-07,
+      "loss": 1.807,
+      "mean_token_accuracy": 0.560819149017334,
+      "num_tokens": 209511.0,
+      "step": 59
+    },
+    {
+      "epoch": 0.4838709677419355,
+      "grad_norm": 6.996568202972412,
+      "learning_rate": 2.626622922096782e-07,
+      "loss": 1.7697,
+      "mean_token_accuracy": 0.5675398111343384,
+      "num_tokens": 213409.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.49193548387096775,
+      "grad_norm": 8.156956672668457,
+      "learning_rate": 2.5633317857829693e-07,
+      "loss": 1.6853,
+      "mean_token_accuracy": 0.5745296478271484,
+      "num_tokens": 216868.0,
+      "step": 61
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 8.733380317687988,
+      "learning_rate": 2.5e-07,
+      "loss": 1.6566,
+      "mean_token_accuracy": 0.5956632494926453,
+      "num_tokens": 220008.0,
+      "step": 62
+    },
+    {
+      "epoch": 0.5080645161290323,
+      "grad_norm": 6.773242473602295,
+      "learning_rate": 2.4366682142170305e-07,
+      "loss": 1.7601,
+      "mean_token_accuracy": 0.5683262944221497,
+      "num_tokens": 223788.0,
+      "step": 63
+    },
+    {
+      "epoch": 0.5161290322580645,
+      "grad_norm": 6.594358444213867,
+      "learning_rate": 2.3733770779032184e-07,
+      "loss": 1.754,
+      "mean_token_accuracy": 0.5651482939720154,
+      "num_tokens": 227568.0,
+      "step": 64
+    },
+    {
+      "epoch": 0.5241935483870968,
+      "grad_norm": 7.253048419952393,
+      "learning_rate": 2.3101672144368846e-07,
+      "loss": 1.7411,
+      "mean_token_accuracy": 0.5777088403701782,
+      "num_tokens": 231439.0,
+      "step": 65
+    },
+    {
+      "epoch": 0.532258064516129,
+      "grad_norm": 6.758819580078125,
+      "learning_rate": 2.2470791950314196e-07,
+      "loss": 1.6841,
+      "mean_token_accuracy": 0.583798885345459,
+      "num_tokens": 235023.0,
+      "step": 66
+    },
+    {
+      "epoch": 0.5403225806451613,
+      "grad_norm": 7.620910167694092,
+      "learning_rate": 2.1841535126946775e-07,
+      "loss": 1.7435,
+      "mean_token_accuracy": 0.5806363224983215,
+      "num_tokens": 238673.0,
+      "step": 67
+    },
+    {
+      "epoch": 0.5483870967741935,
+      "grad_norm": 7.808475017547607,
+      "learning_rate": 2.121430556238559e-07,
+      "loss": 1.7878,
+      "mean_token_accuracy": 0.5660945773124695,
+      "num_tokens": 241998.0,
+      "step": 68
+    },
+    {
+      "epoch": 0.5564516129032258,
+      "grad_norm": 10.025287628173828,
+      "learning_rate": 2.0589505843554795e-07,
+      "loss": 1.8058,
+      "mean_token_accuracy": 0.566918134689331,
+      "num_tokens": 245581.0,
+      "step": 69
+    },
+    {
+      "epoch": 0.5645161290322581,
+      "grad_norm": 7.763560771942139,
+      "learning_rate": 1.9967536997783493e-07,
+      "loss": 1.6668,
+      "mean_token_accuracy": 0.5830458402633667,
+      "num_tokens": 249643.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.5725806451612904,
+      "grad_norm": 7.218297958374023,
+      "learning_rate": 1.9348798235406626e-07,
+      "loss": 1.6796,
+      "mean_token_accuracy": 0.5924479365348816,
+      "num_tokens": 253487.0,
+      "step": 71
+    },
+    {
+      "epoch": 0.5806451612903226,
+      "grad_norm": 7.534745693206787,
+      "learning_rate": 1.8733686693531982e-07,
+      "loss": 1.6667,
+      "mean_token_accuracy": 0.5781828761100769,
+      "num_tokens": 257002.0,
+      "step": 72
+    },
+    {
+      "epoch": 0.5887096774193549,
+      "grad_norm": 9.321051597595215,
+      "learning_rate": 1.8122597181138047e-07,
+      "loss": 1.6971,
+      "mean_token_accuracy": 0.5793435573577881,
+      "num_tokens": 260327.0,
+      "step": 73
+    },
+    {
+      "epoch": 0.5967741935483871,
+      "grad_norm": 7.620558261871338,
+      "learning_rate": 1.751592192566605e-07,
+      "loss": 1.8091,
+      "mean_token_accuracy": 0.5647743940353394,
+      "num_tokens": 263766.0,
+      "step": 74
+    },
+    {
+      "epoch": 0.6048387096774194,
+      "grad_norm": 6.960766315460205,
+      "learning_rate": 1.6914050321269047e-07,
+      "loss": 1.7232,
+      "mean_token_accuracy": 0.5714285969734192,
+      "num_tokens": 267431.0,
+      "step": 75
+    },
+    {
+      "epoch": 0.6129032258064516,
+      "grad_norm": 8.637341499328613,
+      "learning_rate": 1.6317368678879496e-07,
+      "loss": 1.8332,
+      "mean_token_accuracy": 0.5513805747032166,
+      "num_tokens": 270948.0,
+      "step": 76
+    },
+    {
+      "epoch": 0.6209677419354839,
+      "grad_norm": 6.999222278594971,
+      "learning_rate": 1.5726259978255807e-07,
+      "loss": 1.737,
+      "mean_token_accuracy": 0.578661322593689,
+      "num_tokens": 274448.0,
+      "step": 77
+    },
+    {
+      "epoch": 0.6290322580645161,
+      "grad_norm": 6.716799736022949,
+      "learning_rate": 1.514110362216704e-07,
+      "loss": 1.5999,
+      "mean_token_accuracy": 0.6048541069030762,
+      "num_tokens": 278119.0,
+      "step": 78
+    },
+    {
+      "epoch": 0.6370967741935484,
+      "grad_norm": 7.0507659912109375,
+      "learning_rate": 1.4562275192873428e-07,
+      "loss": 1.7363,
+      "mean_token_accuracy": 0.5828737020492554,
+      "num_tokens": 281568.0,
+      "step": 79
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 8.561986923217773,
+      "learning_rate": 1.3990146211059139e-07,
+      "loss": 1.6661,
+      "mean_token_accuracy": 0.591465175151825,
+      "num_tokens": 285087.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.6532258064516129,
+      "grad_norm": 7.29276704788208,
+      "learning_rate": 1.342508389737198e-07,
+      "loss": 1.6752,
+      "mean_token_accuracy": 0.5835070013999939,
+      "num_tokens": 288450.0,
+      "step": 81
+    },
+    {
+      "epoch": 0.6612903225806451,
+      "grad_norm": 7.706023216247559,
+      "learning_rate": 1.2867450936722978e-07,
+      "loss": 1.7451,
+      "mean_token_accuracy": 0.5716311931610107,
+      "num_tokens": 291979.0,
+      "step": 82
+    },
+    {
+      "epoch": 0.6693548387096774,
+      "grad_norm": 7.056520462036133,
+      "learning_rate": 1.2317605245497323e-07,
+      "loss": 1.7154,
+      "mean_token_accuracy": 0.5758506059646606,
+      "num_tokens": 295892.0,
+      "step": 83
+    },
+    {
+      "epoch": 0.6774193548387096,
+      "grad_norm": 7.503317356109619,
+      "learning_rate": 1.1775899741825945e-07,
+      "loss": 1.6899,
+      "mean_token_accuracy": 0.5809495449066162,
+      "num_tokens": 299287.0,
+      "step": 84
+    },
+    {
+      "epoch": 0.6854838709677419,
+      "grad_norm": 6.785901069641113,
+      "learning_rate": 1.1242682119065216e-07,
+      "loss": 1.7004,
+      "mean_token_accuracy": 0.5904300808906555,
+      "num_tokens": 302802.0,
+      "step": 85
+    },
+    {
+      "epoch": 0.6935483870967742,
+      "grad_norm": 8.526169776916504,
+      "learning_rate": 1.0718294622630186e-07,
+      "loss": 1.764,
+      "mean_token_accuracy": 0.5716612339019775,
+      "num_tokens": 305876.0,
+      "step": 86
+    },
+    {
+      "epoch": 0.7016129032258065,
+      "grad_norm": 8.141705513000488,
+      "learning_rate": 1.0203073830324565e-07,
+      "loss": 1.6696,
+      "mean_token_accuracy": 0.5959654450416565,
+      "num_tokens": 309350.0,
+      "step": 87
+    },
+    {
+      "epoch": 0.7096774193548387,
+      "grad_norm": 7.417829513549805,
+      "learning_rate": 9.697350436308427e-08,
+      "loss": 1.6542,
+      "mean_token_accuracy": 0.5915982127189636,
+      "num_tokens": 312520.0,
+      "step": 88
+    },
+    {
+      "epoch": 0.717741935483871,
+      "grad_norm": 7.390657424926758,
+      "learning_rate": 9.201449038842401e-08,
+      "loss": 1.7805,
+      "mean_token_accuracy": 0.5598756074905396,
+      "num_tokens": 316382.0,
+      "step": 89
+    },
+    {
+      "epoch": 0.7258064516129032,
+      "grad_norm": 7.71380615234375,
+      "learning_rate": 8.715687931944449e-08,
+      "loss": 1.6886,
+      "mean_token_accuracy": 0.578542947769165,
+      "num_tokens": 319900.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.7338709677419355,
+      "grad_norm": 7.551061153411865,
+      "learning_rate": 8.240378901093034e-08,
+      "loss": 1.7469,
+      "mean_token_accuracy": 0.570781409740448,
+      "num_tokens": 323436.0,
+      "step": 91
+    },
+    {
+      "epoch": 0.7419354838709677,
+      "grad_norm": 9.389298439025879,
+      "learning_rate": 7.775827023107834e-08,
+      "loss": 1.7162,
+      "mean_token_accuracy": 0.571618914604187,
+      "num_tokens": 326442.0,
+      "step": 92
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 7.125860691070557,
+      "learning_rate": 7.322330470336313e-08,
+      "loss": 1.7112,
+      "mean_token_accuracy": 0.568901777267456,
+      "num_tokens": 330234.0,
+      "step": 93
+    },
+    {
+      "epoch": 0.7580645161290323,
+      "grad_norm": 7.604709148406982,
+      "learning_rate": 6.880180319272006e-08,
+      "loss": 1.653,
+      "mean_token_accuracy": 0.5836288928985596,
+      "num_tokens": 333903.0,
+      "step": 94
+    },
+    {
+      "epoch": 0.7661290322580645,
+      "grad_norm": 6.952591896057129,
+      "learning_rate": 6.449660363727236e-08,
+      "loss": 1.6965,
+      "mean_token_accuracy": 0.5798975825309753,
+      "num_tokens": 337618.0,
+      "step": 95
+    },
+    {
+      "epoch": 0.7741935483870968,
+      "grad_norm": 10.35627555847168,
+      "learning_rate": 6.031046932680229e-08,
+      "loss": 1.6945,
+      "mean_token_accuracy": 0.5744901299476624,
+      "num_tokens": 340515.0,
+      "step": 96
+    },
+    {
+      "epoch": 0.782258064516129,
+      "grad_norm": 7.425570487976074,
+      "learning_rate": 5.624608712913531e-08,
+      "loss": 1.6154,
+      "mean_token_accuracy": 0.5917431116104126,
+      "num_tokens": 344007.0,
+      "step": 97
+    },
+    {
+      "epoch": 0.7903225806451613,
+      "grad_norm": 10.059042930603027,
+      "learning_rate": 5.230606576557539e-08,
+      "loss": 1.6855,
+      "mean_token_accuracy": 0.5853906869888306,
+      "num_tokens": 347940.0,
+      "step": 98
+    },
+    {
+      "epoch": 0.7983870967741935,
+      "grad_norm": 6.582756042480469,
+      "learning_rate": 4.84929341364988e-08,
+      "loss": 1.6939,
+      "mean_token_accuracy": 0.5809850096702576,
+      "num_tokens": 351741.0,
+      "step": 99
+    },
+    {
+      "epoch": 0.8064516129032258,
+      "grad_norm": 6.744507312774658,
+      "learning_rate": 4.480913969818098e-08,
+      "loss": 1.6739,
+      "mean_token_accuracy": 0.585814356803894,
+      "num_tokens": 355171.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.8145161290322581,
+      "grad_norm": 6.796554088592529,
+      "learning_rate": 4.125704689189818e-08,
+      "loss": 1.7039,
+      "mean_token_accuracy": 0.5784457325935364,
+      "num_tokens": 359267.0,
+      "step": 101
+    },
+    {
+      "epoch": 0.8225806451612904,
+      "grad_norm": 6.474706649780273,
+      "learning_rate": 3.783893562631224e-08,
+      "loss": 1.6828,
+      "mean_token_accuracy": 0.5838965773582458,
+      "num_tokens": 362674.0,
+      "step": 102
+    },
+    {
+      "epoch": 0.8306451612903226,
+      "grad_norm": 7.683028221130371,
+      "learning_rate": 3.455699981411259e-08,
+      "loss": 1.7309,
+      "mean_token_accuracy": 0.5660528540611267,
+      "num_tokens": 366425.0,
+      "step": 103
+    },
+    {
+      "epoch": 0.8387096774193549,
+      "grad_norm": 7.123412609100342,
+      "learning_rate": 3.141334596385447e-08,
+      "loss": 1.6526,
+      "mean_token_accuracy": 0.5894578099250793,
+      "num_tokens": 369749.0,
+      "step": 104
+    },
+    {
+      "epoch": 0.8467741935483871,
+      "grad_norm": 6.300046920776367,
+      "learning_rate": 2.8409991827897968e-08,
+      "loss": 1.6927,
+      "mean_token_accuracy": 0.5794023275375366,
+      "num_tokens": 373802.0,
+      "step": 105
+    },
+    {
+      "epoch": 0.8548387096774194,
+      "grad_norm": 6.947690486907959,
+      "learning_rate": 2.5548865107314604e-08,
+      "loss": 1.7412,
+      "mean_token_accuracy": 0.5656623244285583,
+      "num_tokens": 377324.0,
+      "step": 106
+    },
+    {
+      "epoch": 0.8629032258064516,
+      "grad_norm": 7.4605231285095215,
+      "learning_rate": 2.283180221459377e-08,
+      "loss": 1.7679,
+      "mean_token_accuracy": 0.5644617676734924,
+      "num_tokens": 381183.0,
+      "step": 107
+    },
+    {
+      "epoch": 0.8709677419354839,
+      "grad_norm": 6.687449932098389,
+      "learning_rate": 2.0260547094942348e-08,
+      "loss": 1.7144,
+      "mean_token_accuracy": 0.5790040493011475,
+      "num_tokens": 384902.0,
+      "step": 108
+    },
+    {
+      "epoch": 0.8790322580645161,
+      "grad_norm": 9.971823692321777,
+      "learning_rate": 1.7836750106934474e-08,
+      "loss": 1.6716,
+      "mean_token_accuracy": 0.5851125121116638,
+      "num_tokens": 388372.0,
+      "step": 109
+    },
+    {
+      "epoch": 0.8870967741935484,
+      "grad_norm": 8.792091369628906,
+      "learning_rate": 1.5561966963229923e-08,
+      "loss": 1.66,
+      "mean_token_accuracy": 0.5835981965065002,
+      "num_tokens": 391522.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.8951612903225806,
+      "grad_norm": 7.2787981033325195,
+      "learning_rate": 1.3437657732040781e-08,
+      "loss": 1.6463,
+      "mean_token_accuracy": 0.5921754837036133,
+      "num_tokens": 394900.0,
+      "step": 111
+    },
+    {
+      "epoch": 0.9032258064516129,
+      "grad_norm": 7.135777473449707,
+      "learning_rate": 1.1465185899987794e-08,
+      "loss": 1.7416,
+      "mean_token_accuracy": 0.5735452771186829,
+      "num_tokens": 398616.0,
+      "step": 112
+    },
+    {
+      "epoch": 0.9112903225806451,
+      "grad_norm": 8.646471977233887,
+      "learning_rate": 9.6458174969469e-09,
+      "loss": 1.7218,
+      "mean_token_accuracy": 0.5801047086715698,
+      "num_tokens": 402440.0,
+      "step": 113
+    },
+    {
+      "epoch": 0.9193548387096774,
+      "grad_norm": 6.620112895965576,
+      "learning_rate": 7.980720283448955e-09,
+      "loss": 1.8393,
+      "mean_token_accuracy": 0.5539906024932861,
+      "num_tokens": 406278.0,
+      "step": 114
+    },
+    {
+      "epoch": 0.9274193548387096,
+      "grad_norm": 8.354401588439941,
+      "learning_rate": 6.470963001153268e-09,
+      "loss": 1.7239,
+      "mean_token_accuracy": 0.5888278484344482,
+      "num_tokens": 409558.0,
+      "step": 115
+    },
+    {
+      "epoch": 0.9354838709677419,
+      "grad_norm": 7.131601810455322,
+      "learning_rate": 5.117514686876378e-09,
+      "loss": 1.6136,
+      "mean_token_accuracy": 0.5943509340286255,
+      "num_tokens": 412890.0,
+      "step": 116
+    },
+    {
+      "epoch": 0.9435483870967742,
+      "grad_norm": 7.938460826873779,
+      "learning_rate": 3.921244050616446e-09,
+      "loss": 1.7333,
+      "mean_token_accuracy": 0.5793216824531555,
+      "num_tokens": 416550.0,
+      "step": 117
+    },
+    {
+      "epoch": 0.9516129032258065,
+      "grad_norm": 7.657175540924072,
+      "learning_rate": 2.8829189179721547e-09,
+      "loss": 1.7309,
+      "mean_token_accuracy": 0.5766178369522095,
+      "num_tokens": 419830.0,
+      "step": 118
+    },
+    {
+      "epoch": 0.9596774193548387,
+      "grad_norm": 7.384486198425293,
+      "learning_rate": 2.0032057373142453e-09,
+      "loss": 1.6211,
+      "mean_token_accuracy": 0.5845938324928284,
+      "num_tokens": 423404.0,
+      "step": 119
+    },
+    {
+      "epoch": 0.967741935483871,
+      "grad_norm": 8.56894588470459,
+      "learning_rate": 1.2826691520262112e-09,
+      "loss": 1.7963,
+      "mean_token_accuracy": 0.57413250207901,
+      "num_tokens": 426895.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.9758064516129032,
+      "grad_norm": 6.813057899475098,
+      "learning_rate": 7.217716380881477e-10,
+      "loss": 1.726,
+      "mean_token_accuracy": 0.5653586387634277,
+      "num_tokens": 430900.0,
+      "step": 121
+    },
+    {
+      "epoch": 0.9838709677419355,
+      "grad_norm": 6.8685431480407715,
+      "learning_rate": 3.2087320723681033e-10,
+      "loss": 1.6799,
+      "mean_token_accuracy": 0.5889589190483093,
+      "num_tokens": 434237.0,
+      "step": 122
+    },
+    {
+      "epoch": 0.9919354838709677,
+      "grad_norm": 7.024580955505371,
+      "learning_rate": 8.023117589237016e-11,
+      "loss": 1.7037,
+      "mean_token_accuracy": 0.5847502946853638,
+      "num_tokens": 438005.0,
+      "step": 123
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 8.294002532958984,
+      "learning_rate": 0.0,
+      "loss": 1.6386,
+      "mean_token_accuracy": 0.5888568758964539,
+      "num_tokens": 441132.0,
+      "step": 124
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 124,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 3000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.0678265542868992e+16,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}