{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.048128,
  "eval_steps": 100,
  "global_step": 1024,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01024,
      "grad_norm": 269.9034729003906,
      "learning_rate": 0.0001999995200527669,
      "loss": 624.6766,
      "step": 10
    },
    {
      "epoch": 0.02048,
      "grad_norm": 73.23262786865234,
      "learning_rate": 0.000199941931959037,
      "loss": 544.9223,
      "step": 20
    },
    {
      "epoch": 0.03072,
      "grad_norm": 95.47492218017578,
      "learning_rate": 0.00019978841775475367,
      "loss": 511.6501,
      "step": 30
    },
    {
      "epoch": 0.04096,
      "grad_norm": 145.1549530029297,
      "learning_rate": 0.00019953912478568305,
      "loss": 497.5438,
      "step": 40
    },
    {
      "epoch": 0.0512,
      "grad_norm": 150.53515625,
      "learning_rate": 0.00019919429232781712,
      "loss": 497.208,
      "step": 50
    },
    {
      "epoch": 0.06144,
      "grad_norm": 151.51736450195312,
      "learning_rate": 0.0001987542513577122,
      "loss": 496.9036,
      "step": 60
    },
    {
      "epoch": 0.07168,
      "grad_norm": 159.39337158203125,
      "learning_rate": 0.0001982771584048096,
      "loss": 489.2719,
      "step": 70
    },
    {
      "epoch": 0.08192,
      "grad_norm": 148.92176818847656,
      "learning_rate": 0.00019765746006440455,
      "loss": 482.9451,
      "step": 80
    },
    {
      "epoch": 0.09216,
      "grad_norm": 139.00486755371094,
      "learning_rate": 0.0001970195706599109,
      "loss": 476.9848,
      "step": 90
    },
    {
      "epoch": 0.1024,
      "grad_norm": 157.25439453125,
      "learning_rate": 0.00019622236172137374,
      "loss": 471.4595,
      "step": 100
    },
    {
      "epoch": 0.1024,
      "eval_loss": 7.320011615753174,
      "eval_runtime": 3.4958,
      "eval_samples_per_second": 143.029,
      "eval_steps_per_second": 9.154,
      "step": 100
    },
    {
      "epoch": 0.11264,
      "grad_norm": 141.9667510986328,
      "learning_rate": 0.0001953327967844356,
      "loss": 468.9138,
      "step": 110
    },
    {
      "epoch": 0.12288,
      "grad_norm": 99.36428833007812,
      "learning_rate": 0.0001943517296699384,
      "loss": 468.5555,
      "step": 120
    },
    {
      "epoch": 0.13312,
      "grad_norm": 98.90169525146484,
      "learning_rate": 0.00019328010202420258,
      "loss": 463.3139,
      "step": 130
    },
    {
      "epoch": 0.14336,
      "grad_norm": 77.31971740722656,
      "learning_rate": 0.00019211894241521758,
      "loss": 458.0901,
      "step": 140
    },
    {
      "epoch": 0.1536,
      "grad_norm": 134.48403930664062,
      "learning_rate": 0.0001908693653454033,
      "loss": 454.8131,
      "step": 150
    },
    {
      "epoch": 0.16384,
      "grad_norm": 95.27815246582031,
      "learning_rate": 0.00018953257018189024,
      "loss": 454.0167,
      "step": 160
    },
    {
      "epoch": 0.17408,
      "grad_norm": 87.9055404663086,
      "learning_rate": 0.00018810984000534458,
      "loss": 449.3531,
      "step": 170
    },
    {
      "epoch": 0.18432,
      "grad_norm": 116.1905288696289,
      "learning_rate": 0.00018660254037844388,
      "loss": 447.6146,
      "step": 180
    },
    {
      "epoch": 0.19456,
      "grad_norm": 81.48722076416016,
      "learning_rate": 0.00018501211803518468,
      "loss": 450.6066,
      "step": 190
    },
    {
      "epoch": 0.2048,
      "grad_norm": 75.57894897460938,
      "learning_rate": 0.00018334009949228061,
      "loss": 448.9498,
      "step": 200
    },
    {
      "epoch": 0.2048,
      "eval_loss": 6.992556571960449,
      "eval_runtime": 3.4911,
      "eval_samples_per_second": 143.219,
      "eval_steps_per_second": 9.166,
      "step": 200
    },
    {
      "epoch": 0.21504,
      "grad_norm": 160.8426513671875,
      "learning_rate": 0.00018158808958398338,
      "loss": 449.3857,
      "step": 210
    },
    {
      "epoch": 0.22528,
      "grad_norm": 86.6707992553711,
      "learning_rate": 0.00017975776992173344,
      "loss": 449.0133,
      "step": 220
    },
    {
      "epoch": 0.23552,
      "grad_norm": 65.60407257080078,
      "learning_rate": 0.00017785089728011798,
      "loss": 446.8142,
      "step": 230
    },
    {
      "epoch": 0.24576,
      "grad_norm": 125.04796600341797,
      "learning_rate": 0.00017586930191068655,
      "loss": 446.0437,
      "step": 240
    },
    {
      "epoch": 0.256,
      "grad_norm": 89.98313903808594,
      "learning_rate": 0.00017381488578524173,
      "loss": 445.3744,
      "step": 250
    },
    {
      "epoch": 0.26624,
      "grad_norm": 269.5317077636719,
      "learning_rate": 0.00017168962077029147,
      "loss": 446.719,
      "step": 260
    },
    {
      "epoch": 0.27648,
      "grad_norm": 73.03639221191406,
      "learning_rate": 0.00016949554673441534,
      "loss": 448.0971,
      "step": 270
    },
    {
      "epoch": 0.28672,
      "grad_norm": 122.57962799072266,
      "learning_rate": 0.00016723476959036083,
      "loss": 448.991,
      "step": 280
    },
    {
      "epoch": 0.29696,
      "grad_norm": 81.79669189453125,
      "learning_rate": 0.0001649094592737497,
      "loss": 444.1866,
      "step": 290
    },
    {
      "epoch": 0.3072,
      "grad_norm": 74.33326721191406,
      "learning_rate": 0.00016252184766033342,
      "loss": 436.623,
      "step": 300
    },
    {
      "epoch": 0.3072,
      "eval_loss": 6.777511119842529,
      "eval_runtime": 3.4227,
      "eval_samples_per_second": 146.083,
      "eval_steps_per_second": 9.349,
      "step": 300
    },
    {
      "epoch": 0.31744,
      "grad_norm": 113.46410369873047,
      "learning_rate": 0.0001600742264237979,
      "loss": 435.7422,
      "step": 310
    },
    {
      "epoch": 0.32768,
      "grad_norm": 99.42645263671875,
      "learning_rate": 0.00015756894483617267,
      "loss": 439.4858,
      "step": 320
    },
    {
      "epoch": 0.33792,
      "grad_norm": 328.0025634765625,
      "learning_rate": 0.0001550084075129563,
      "loss": 447.5792,
      "step": 330
    },
    {
      "epoch": 0.34816,
      "grad_norm": 82.54906463623047,
      "learning_rate": 0.00015239507210512194,
      "loss": 446.5024,
      "step": 340
    },
    {
      "epoch": 0.3584,
      "grad_norm": 62.32942581176758,
      "learning_rate": 0.00014973144694021876,
      "loss": 437.9146,
      "step": 350
    },
    {
      "epoch": 0.36864,
      "grad_norm": 64.61022186279297,
      "learning_rate": 0.00014702008861483266,
      "loss": 430.4142,
      "step": 360
    },
    {
      "epoch": 0.37888,
      "grad_norm": 133.777587890625,
      "learning_rate": 0.00014426359954071796,
      "loss": 428.6971,
      "step": 370
    },
    {
      "epoch": 0.38912,
      "grad_norm": 218.512939453125,
      "learning_rate": 0.00014146462544695426,
      "loss": 435.1475,
      "step": 380
    },
    {
      "epoch": 0.39936,
      "grad_norm": 125.56941986083984,
      "learning_rate": 0.00013862585284052714,
      "loss": 445.5835,
      "step": 390
    },
    {
      "epoch": 0.4096,
      "grad_norm": 109.06041717529297,
      "learning_rate": 0.00013575000642776893,
      "loss": 446.3095,
      "step": 400
    },
    {
      "epoch": 0.4096,
      "eval_loss": 6.905622959136963,
      "eval_runtime": 3.4269,
      "eval_samples_per_second": 145.903,
      "eval_steps_per_second": 9.338,
      "step": 400
    },
    {
      "epoch": 0.41984,
      "grad_norm": 69.12989044189453,
      "learning_rate": 0.0001328398464991355,
      "loss": 438.9709,
      "step": 410
    },
    {
      "epoch": 0.43008,
      "grad_norm": 68.11474609375,
      "learning_rate": 0.00012989816627982848,
      "loss": 432.2964,
      "step": 420
    },
    {
      "epoch": 0.44032,
      "grad_norm": 65.17674255371094,
      "learning_rate": 0.00012692778924880603,
      "loss": 428.2125,
      "step": 430
    },
    {
      "epoch": 0.45056,
      "grad_norm": 114.95523834228516,
      "learning_rate": 0.0001239315664287558,
      "loss": 426.8882,
      "step": 440
    },
    {
      "epoch": 0.4608,
      "grad_norm": 185.0157470703125,
      "learning_rate": 0.00012091237364963071,
      "loss": 435.8043,
      "step": 450
    },
    {
      "epoch": 0.47104,
      "grad_norm": 92.59754180908203,
      "learning_rate": 0.00011787310878837422,
      "loss": 440.9751,
      "step": 460
    },
    {
      "epoch": 0.48128,
      "grad_norm": 75.24162292480469,
      "learning_rate": 0.00011481668898748475,
      "loss": 439.3276,
      "step": 470
    },
    {
      "epoch": 0.49152,
      "grad_norm": 55.42325210571289,
      "learning_rate": 0.00011174604785508813,
      "loss": 432.4603,
      "step": 480
    },
    {
      "epoch": 0.50176,
      "grad_norm": 62.27671813964844,
      "learning_rate": 0.00010866413264920678,
      "loss": 427.5299,
      "step": 490
    },
    {
      "epoch": 0.512,
      "grad_norm": 65.43367767333984,
      "learning_rate": 0.00010557390144892684,
      "loss": 425.4595,
      "step": 500
    },
    {
      "epoch": 0.512,
      "eval_loss": 6.613161087036133,
      "eval_runtime": 3.4182,
      "eval_samples_per_second": 146.277,
      "eval_steps_per_second": 9.362,
      "step": 500
    },
    {
      "epoch": 0.52224,
      "grad_norm": 175.58470153808594,
      "learning_rate": 0.0001024783203151793,
      "loss": 425.5378,
      "step": 510
    },
    {
      "epoch": 0.53248,
      "grad_norm": 199.92291259765625,
      "learning_rate": 9.938036044386005e-05,
      "loss": 431.3893,
      "step": 520
    },
    {
      "epoch": 0.54272,
      "grad_norm": 212.65650939941406,
      "learning_rate": 9.628299531402117e-05,
      "loss": 443.9659,
      "step": 530
    },
    {
      "epoch": 0.55296,
      "grad_norm": 93.11270141601562,
      "learning_rate": 9.318919783387094e-05,
      "loss": 443.3476,
      "step": 540
    },
    {
      "epoch": 0.5632,
      "grad_norm": 93.02433013916016,
      "learning_rate": 9.010193748732155e-05,
      "loss": 438.1048,
      "step": 550
    },
    {
      "epoch": 0.57344,
      "grad_norm": 72.0661849975586,
      "learning_rate": 8.702417748382385e-05,
      "loss": 431.1463,
      "step": 560
    },
    {
      "epoch": 0.58368,
      "grad_norm": 67.0578842163086,
      "learning_rate": 8.395887191422397e-05,
      "loss": 427.2931,
      "step": 570
    },
    {
      "epoch": 0.59392,
      "grad_norm": 85.532958984375,
      "learning_rate": 8.090896291537273e-05,
      "loss": 424.9293,
      "step": 580
    },
    {
      "epoch": 0.60416,
      "grad_norm": 72.48572540283203,
      "learning_rate": 7.787737784620803e-05,
      "loss": 424.9051,
      "step": 590
    },
    {
      "epoch": 0.6144,
      "grad_norm": 237.96592712402344,
      "learning_rate": 7.486702647802213e-05,
      "loss": 425.6438,
      "step": 600
    },
    {
      "epoch": 0.6144,
      "eval_loss": 6.683709621429443,
      "eval_runtime": 3.436,
      "eval_samples_per_second": 145.519,
      "eval_steps_per_second": 9.313,
      "step": 600
    },
    {
      "epoch": 0.62464,
      "grad_norm": 178.17239379882812,
      "learning_rate": 7.188079820160904e-05,
      "loss": 432.3896,
      "step": 610
    },
    {
      "epoch": 0.63488,
      "grad_norm": 84.38874053955078,
      "learning_rate": 6.892155925397436e-05,
      "loss": 434.9848,
      "step": 620
    },
    {
      "epoch": 0.64512,
      "grad_norm": 66.67383575439453,
      "learning_rate": 6.59921499672677e-05,
      "loss": 433.8923,
      "step": 630
    },
    {
      "epoch": 0.65536,
      "grad_norm": 74.11187744140625,
      "learning_rate": 6.309538204257977e-05,
      "loss": 430.2817,
      "step": 640
    },
    {
      "epoch": 0.6656,
      "grad_norm": 95.32003784179688,
      "learning_rate": 6.02340358512196e-05,
      "loss": 427.1533,
      "step": 650
    },
    {
      "epoch": 0.67584,
      "grad_norm": 71.91348266601562,
      "learning_rate": 5.7410857766062966e-05,
      "loss": 425.3034,
      "step": 660
    },
    {
      "epoch": 0.68608,
      "grad_norm": 95.72642517089844,
      "learning_rate": 5.4628557525532976e-05,
      "loss": 425.3343,
      "step": 670
    },
    {
      "epoch": 0.69632,
      "grad_norm": 161.08612060546875,
      "learning_rate": 5.188980563274315e-05,
      "loss": 426.5362,
      "step": 680
    },
    {
      "epoch": 0.70656,
      "grad_norm": 130.4775848388672,
      "learning_rate": 4.9197230792299195e-05,
      "loss": 431.4921,
      "step": 690
    },
    {
      "epoch": 0.7168,
      "grad_norm": 102.47798919677734,
      "learning_rate": 4.6553417387219886e-05,
      "loss": 432.9831,
      "step": 700
    },
    {
      "epoch": 0.7168,
      "eval_loss": 6.725553512573242,
      "eval_runtime": 3.4338,
      "eval_samples_per_second": 145.61,
      "eval_steps_per_second": 9.319,
      "step": 700
    },
    {
      "epoch": 0.72704,
      "grad_norm": 73.72420501708984,
      "learning_rate": 4.421777466693434e-05,
      "loss": 431.4859,
      "step": 710
    },
    {
      "epoch": 0.73728,
      "grad_norm": 83.63558197021484,
      "learning_rate": 4.167355837898584e-05,
      "loss": 428.698,
      "step": 720
    },
    {
      "epoch": 0.74752,
      "grad_norm": 69.27027893066406,
      "learning_rate": 3.918532488602094e-05,
      "loss": 428.0623,
      "step": 730
    },
    {
      "epoch": 0.75776,
      "grad_norm": 107.68405151367188,
      "learning_rate": 3.675546244046228e-05,
      "loss": 425.6424,
      "step": 740
    },
    {
      "epoch": 0.768,
      "grad_norm": 96.42312622070312,
      "learning_rate": 3.438630326912414e-05,
      "loss": 425.8188,
      "step": 750
    },
    {
      "epoch": 0.77824,
      "grad_norm": 116.1615982055664,
      "learning_rate": 3.208012133469799e-05,
      "loss": 425.9528,
      "step": 760
    },
    {
      "epoch": 0.78848,
      "grad_norm": 91.75414276123047,
      "learning_rate": 2.9839130153161154e-05,
      "loss": 426.8583,
      "step": 770
    },
    {
      "epoch": 0.79872,
      "grad_norm": 79.31800079345703,
      "learning_rate": 2.766548066920338e-05,
      "loss": 425.4576,
      "step": 780
    },
    {
      "epoch": 0.80896,
      "grad_norm": 108.06861114501953,
      "learning_rate": 2.5561259191710407e-05,
      "loss": 425.0249,
      "step": 790
    },
    {
      "epoch": 0.8192,
      "grad_norm": 86.25403594970703,
      "learning_rate": 2.3528485391286147e-05,
      "loss": 426.0778,
      "step": 800
    },
    {
      "epoch": 0.8192,
      "eval_loss": 6.630011558532715,
      "eval_runtime": 3.4108,
      "eval_samples_per_second": 146.591,
      "eval_steps_per_second": 9.382,
      "step": 800
    },
    {
      "epoch": 0.82944,
      "grad_norm": 80.1161117553711,
      "learning_rate": 2.1569110361735677e-05,
      "loss": 426.9529,
      "step": 810
    },
    {
      "epoch": 0.83968,
      "grad_norm": 92.57079315185547,
      "learning_rate": 2e-05,
      "loss": 425.7674,
      "step": 820
    },
    {
      "epoch": 0.84992,
      "grad_norm": 76.28582000732422,
      "learning_rate": 2e-05,
      "loss": 425.3365,
      "step": 830
    },
    {
      "epoch": 0.86016,
      "grad_norm": 111.58943176269531,
      "learning_rate": 2e-05,
      "loss": 424.6131,
      "step": 840
    },
    {
      "epoch": 0.8704,
      "grad_norm": 158.44044494628906,
      "learning_rate": 2e-05,
      "loss": 425.0354,
      "step": 850
    },
    {
      "epoch": 0.88064,
      "grad_norm": 101.99372100830078,
      "learning_rate": 2e-05,
      "loss": 424.9413,
      "step": 860
    },
    {
      "epoch": 0.89088,
      "grad_norm": 140.2552490234375,
      "learning_rate": 2e-05,
      "loss": 426.5773,
      "step": 870
    },
    {
      "epoch": 0.90112,
      "grad_norm": 117.06301879882812,
      "learning_rate": 2e-05,
      "loss": 427.2063,
      "step": 880
    },
    {
      "epoch": 0.91136,
      "grad_norm": 147.27670288085938,
      "learning_rate": 2e-05,
      "loss": 427.2577,
      "step": 890
    },
    {
      "epoch": 0.9216,
      "grad_norm": 109.34888458251953,
      "learning_rate": 2e-05,
      "loss": 428.4192,
      "step": 900
    },
    {
      "epoch": 0.9216,
      "eval_loss": 6.663826942443848,
      "eval_runtime": 3.429,
      "eval_samples_per_second": 145.817,
      "eval_steps_per_second": 9.332,
      "step": 900
    },
    {
      "epoch": 0.93184,
      "grad_norm": 145.62522888183594,
      "learning_rate": 2e-05,
      "loss": 428.9891,
      "step": 910
    },
    {
      "epoch": 0.94208,
      "grad_norm": 90.70750427246094,
      "learning_rate": 2e-05,
      "loss": 429.0984,
      "step": 920
    },
    {
      "epoch": 0.95232,
      "grad_norm": 92.83578491210938,
      "learning_rate": 2e-05,
      "loss": 429.0002,
      "step": 930
    },
    {
      "epoch": 0.96256,
      "grad_norm": 125.1180648803711,
      "learning_rate": 2e-05,
      "loss": 428.4883,
      "step": 940
    },
    {
      "epoch": 0.9728,
      "grad_norm": 132.3828125,
      "learning_rate": 2e-05,
      "loss": 428.6993,
      "step": 950
    },
    {
      "epoch": 0.98304,
      "grad_norm": 100.2248306274414,
      "learning_rate": 2e-05,
      "loss": 429.164,
      "step": 960
    },
    {
      "epoch": 0.99328,
      "grad_norm": 112.38407897949219,
      "learning_rate": 2e-05,
      "loss": 430.1383,
      "step": 970
    },
    {
      "epoch": 1.003072,
      "grad_norm": 104.0753173828125,
      "learning_rate": 2e-05,
      "loss": 410.847,
      "step": 980
    },
    {
      "epoch": 1.013312,
      "grad_norm": 137.40553283691406,
      "learning_rate": 2e-05,
      "loss": 431.1839,
      "step": 990
    },
    {
      "epoch": 1.023552,
      "grad_norm": 191.53709411621094,
      "learning_rate": 2e-05,
      "loss": 431.9959,
      "step": 1000
    },
    {
      "epoch": 1.023552,
      "eval_loss": 6.718299865722656,
      "eval_runtime": 3.4132,
      "eval_samples_per_second": 146.49,
      "eval_steps_per_second": 9.375,
      "step": 1000
    },
    {
      "epoch": 1.033792,
      "grad_norm": 188.12156677246094,
      "learning_rate": 2e-05,
      "loss": 432.0317,
      "step": 1010
    },
    {
      "epoch": 1.044032,
      "grad_norm": 119.64492797851562,
      "learning_rate": 2e-05,
      "loss": 432.8214,
      "step": 1020
    }
  ],
  "logging_steps": 10,
  "max_steps": 1024,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 1024,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 9.134583528711782e+18,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}