30k-Llama3-8B / checkpoint-260 /trainer_state.json
QJerry's picture
Initial commit.
ed266a5 verified
{
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 2.2186666666666666,
"eval_steps": 500,
"global_step": 260,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.008533333333333334,
"grad_norm": 160.11701043689894,
"learning_rate": 0.0,
"loss": 32.4968,
"step": 1
},
{
"epoch": 0.017066666666666667,
"grad_norm": 157.24779534424323,
"learning_rate": 1.5051499783199057e-06,
"loss": 31.6979,
"step": 2
},
{
"epoch": 0.0256,
"grad_norm": 157.9465272449825,
"learning_rate": 2.385606273598312e-06,
"loss": 31.8828,
"step": 3
},
{
"epoch": 0.034133333333333335,
"grad_norm": 160.2154859965946,
"learning_rate": 3.0102999566398115e-06,
"loss": 31.9681,
"step": 4
},
{
"epoch": 0.042666666666666665,
"grad_norm": 158.5305446712084,
"learning_rate": 3.4948500216800934e-06,
"loss": 31.3717,
"step": 5
},
{
"epoch": 0.0512,
"grad_norm": 155.50243039700376,
"learning_rate": 3.890756251918218e-06,
"loss": 30.5348,
"step": 6
},
{
"epoch": 0.05973333333333333,
"grad_norm": 168.6887446693614,
"learning_rate": 4.225490200071284e-06,
"loss": 31.3845,
"step": 7
},
{
"epoch": 0.06826666666666667,
"grad_norm": 164.2631689450651,
"learning_rate": 4.515449934959717e-06,
"loss": 30.5243,
"step": 8
},
{
"epoch": 0.0768,
"grad_norm": 174.1878139573776,
"learning_rate": 4.771212547196624e-06,
"loss": 30.0138,
"step": 9
},
{
"epoch": 0.08533333333333333,
"grad_norm": 177.9519334680014,
"learning_rate": 4.9999999999999996e-06,
"loss": 29.6143,
"step": 10
},
{
"epoch": 0.09386666666666667,
"grad_norm": 183.57104380865735,
"learning_rate": 5.206963425791125e-06,
"loss": 28.8718,
"step": 11
},
{
"epoch": 0.1024,
"grad_norm": 186.4090344511231,
"learning_rate": 5.395906230238124e-06,
"loss": 26.1695,
"step": 12
},
{
"epoch": 0.11093333333333333,
"grad_norm": 198.17161320746723,
"learning_rate": 5.5697167615341825e-06,
"loss": 26.1266,
"step": 13
},
{
"epoch": 0.11946666666666667,
"grad_norm": 182.4443087115901,
"learning_rate": 5.730640178391189e-06,
"loss": 24.2121,
"step": 14
},
{
"epoch": 0.128,
"grad_norm": 159.38105380659272,
"learning_rate": 5.880456295278406e-06,
"loss": 22.5796,
"step": 15
},
{
"epoch": 0.13653333333333334,
"grad_norm": 142.82387126501297,
"learning_rate": 6.020599913279623e-06,
"loss": 21.1346,
"step": 16
},
{
"epoch": 0.14506666666666668,
"grad_norm": 123.86394296641578,
"learning_rate": 6.15224460689137e-06,
"loss": 19.8457,
"step": 17
},
{
"epoch": 0.1536,
"grad_norm": 112.3988260336824,
"learning_rate": 6.276362525516529e-06,
"loss": 18.7824,
"step": 18
},
{
"epoch": 0.16213333333333332,
"grad_norm": 120.96712330991012,
"learning_rate": 6.393768004764144e-06,
"loss": 18.0207,
"step": 19
},
{
"epoch": 0.17066666666666666,
"grad_norm": 129.42692949353702,
"learning_rate": 6.505149978319905e-06,
"loss": 16.8355,
"step": 20
},
{
"epoch": 0.1792,
"grad_norm": 120.65595457746791,
"learning_rate": 6.611096473669596e-06,
"loss": 15.252,
"step": 21
},
{
"epoch": 0.18773333333333334,
"grad_norm": 133.05280466087515,
"learning_rate": 6.712113404111031e-06,
"loss": 14.1391,
"step": 22
},
{
"epoch": 0.19626666666666667,
"grad_norm": 127.95029628849048,
"learning_rate": 6.808639180087963e-06,
"loss": 12.9566,
"step": 23
},
{
"epoch": 0.2048,
"grad_norm": 108.83495245094748,
"learning_rate": 6.90105620855803e-06,
"loss": 11.8743,
"step": 24
},
{
"epoch": 0.21333333333333335,
"grad_norm": 99.90727146021455,
"learning_rate": 6.989700043360187e-06,
"loss": 10.962,
"step": 25
},
{
"epoch": 0.22186666666666666,
"grad_norm": 98.37126740059823,
"learning_rate": 7.074866739854089e-06,
"loss": 9.9919,
"step": 26
},
{
"epoch": 0.2304,
"grad_norm": 92.26708429201608,
"learning_rate": 7.156818820794936e-06,
"loss": 8.8811,
"step": 27
},
{
"epoch": 0.23893333333333333,
"grad_norm": 83.36099898839835,
"learning_rate": 7.235790156711096e-06,
"loss": 7.7806,
"step": 28
},
{
"epoch": 0.24746666666666667,
"grad_norm": 68.07500315598597,
"learning_rate": 7.3119899894947795e-06,
"loss": 7.0528,
"step": 29
},
{
"epoch": 0.256,
"grad_norm": 69.58960332280246,
"learning_rate": 7.385606273598311e-06,
"loss": 6.3683,
"step": 30
},
{
"epoch": 0.26453333333333334,
"grad_norm": 68.77532204123075,
"learning_rate": 7.456808469171363e-06,
"loss": 6.1635,
"step": 31
},
{
"epoch": 0.2730666666666667,
"grad_norm": 66.29676636510072,
"learning_rate": 7.5257498915995295e-06,
"loss": 4.711,
"step": 32
},
{
"epoch": 0.2816,
"grad_norm": 42.87145091679237,
"learning_rate": 7.592569699389437e-06,
"loss": 4.5119,
"step": 33
},
{
"epoch": 0.29013333333333335,
"grad_norm": 26.2592350291551,
"learning_rate": 7.657394585211274e-06,
"loss": 4.31,
"step": 34
},
{
"epoch": 0.2986666666666667,
"grad_norm": 15.35959008067237,
"learning_rate": 7.720340221751376e-06,
"loss": 4.0001,
"step": 35
},
{
"epoch": 0.3072,
"grad_norm": 8.50847651865227,
"learning_rate": 7.781512503836437e-06,
"loss": 3.5723,
"step": 36
},
{
"epoch": 0.3157333333333333,
"grad_norm": 6.562581089063746,
"learning_rate": 7.841008620334974e-06,
"loss": 3.9254,
"step": 37
},
{
"epoch": 0.32426666666666665,
"grad_norm": 5.6145595722250095,
"learning_rate": 7.89891798308405e-06,
"loss": 3.8746,
"step": 38
},
{
"epoch": 0.3328,
"grad_norm": 5.385367220486204,
"learning_rate": 7.955323035132495e-06,
"loss": 3.8128,
"step": 39
},
{
"epoch": 0.3413333333333333,
"grad_norm": 5.403447124703616,
"learning_rate": 8.010299956639811e-06,
"loss": 3.885,
"step": 40
},
{
"epoch": 0.34986666666666666,
"grad_norm": 5.48242204895128,
"learning_rate": 8.063919283598677e-06,
"loss": 3.8048,
"step": 41
},
{
"epoch": 0.3584,
"grad_norm": 5.5525098950513865,
"learning_rate": 8.116246451989503e-06,
"loss": 3.7508,
"step": 42
},
{
"epoch": 0.36693333333333333,
"grad_norm": 5.354384520535484,
"learning_rate": 8.167342277897933e-06,
"loss": 3.5069,
"step": 43
},
{
"epoch": 0.37546666666666667,
"grad_norm": 5.46272338131107,
"learning_rate": 8.217263382430936e-06,
"loss": 3.6747,
"step": 44
},
{
"epoch": 0.384,
"grad_norm": 4.798550688968453,
"learning_rate": 8.266062568876717e-06,
"loss": 3.1609,
"step": 45
},
{
"epoch": 0.39253333333333335,
"grad_norm": 5.755104452953421,
"learning_rate": 8.31378915840787e-06,
"loss": 3.5733,
"step": 46
},
{
"epoch": 0.4010666666666667,
"grad_norm": 4.618763611067563,
"learning_rate": 8.360489289678585e-06,
"loss": 2.9402,
"step": 47
},
{
"epoch": 0.4096,
"grad_norm": 5.506785974818791,
"learning_rate": 8.406206186877936e-06,
"loss": 3.382,
"step": 48
},
{
"epoch": 0.41813333333333336,
"grad_norm": 4.68603207809794,
"learning_rate": 8.450980400142568e-06,
"loss": 2.9918,
"step": 49
},
{
"epoch": 0.4266666666666667,
"grad_norm": 5.124033394817131,
"learning_rate": 8.494850021680093e-06,
"loss": 3.3202,
"step": 50
},
{
"epoch": 0.4352,
"grad_norm": 4.293001183481895,
"learning_rate": 8.537850880489681e-06,
"loss": 2.8519,
"step": 51
},
{
"epoch": 0.4437333333333333,
"grad_norm": 4.382596858902394,
"learning_rate": 8.580016718173996e-06,
"loss": 2.9683,
"step": 52
},
{
"epoch": 0.45226666666666665,
"grad_norm": 4.3176263388044696,
"learning_rate": 8.621379348003945e-06,
"loss": 2.9257,
"step": 53
},
{
"epoch": 0.4608,
"grad_norm": 4.5250022171605195,
"learning_rate": 8.661968799114844e-06,
"loss": 3.0556,
"step": 54
},
{
"epoch": 0.4693333333333333,
"grad_norm": 4.429424190600661,
"learning_rate": 8.701813447471218e-06,
"loss": 2.9513,
"step": 55
},
{
"epoch": 0.47786666666666666,
"grad_norm": 4.349652568052827,
"learning_rate": 8.740940135031001e-06,
"loss": 2.9029,
"step": 56
},
{
"epoch": 0.4864,
"grad_norm": 4.299227871435445,
"learning_rate": 8.779374278362457e-06,
"loss": 2.5989,
"step": 57
},
{
"epoch": 0.49493333333333334,
"grad_norm": 4.562461330302201,
"learning_rate": 8.817139967814684e-06,
"loss": 2.8158,
"step": 58
},
{
"epoch": 0.5034666666666666,
"grad_norm": 4.606987182758338,
"learning_rate": 8.854260058210721e-06,
"loss": 2.6272,
"step": 59
},
{
"epoch": 0.512,
"grad_norm": 4.9420031522511545,
"learning_rate": 8.890756251918216e-06,
"loss": 2.5488,
"step": 60
},
{
"epoch": 0.5205333333333333,
"grad_norm": 4.706462297046012,
"learning_rate": 8.926649175053834e-06,
"loss": 2.3575,
"step": 61
},
{
"epoch": 0.5290666666666667,
"grad_norm": 4.862820204363494,
"learning_rate": 8.961958447491269e-06,
"loss": 2.2952,
"step": 62
},
{
"epoch": 0.5376,
"grad_norm": 4.911045913397774,
"learning_rate": 8.996702747267908e-06,
"loss": 2.1768,
"step": 63
},
{
"epoch": 0.5461333333333334,
"grad_norm": 5.46978680182973,
"learning_rate": 9.030899869919434e-06,
"loss": 2.2528,
"step": 64
},
{
"epoch": 0.5546666666666666,
"grad_norm": 5.847558397227374,
"learning_rate": 9.064566783214276e-06,
"loss": 2.2401,
"step": 65
},
{
"epoch": 0.5632,
"grad_norm": 5.984440656257,
"learning_rate": 9.097719677709343e-06,
"loss": 2.156,
"step": 66
},
{
"epoch": 0.5717333333333333,
"grad_norm": 6.146172189799918,
"learning_rate": 9.130374013504131e-06,
"loss": 2.0059,
"step": 67
},
{
"epoch": 0.5802666666666667,
"grad_norm": 5.725706778130614,
"learning_rate": 9.162544563531182e-06,
"loss": 1.7756,
"step": 68
},
{
"epoch": 0.5888,
"grad_norm": 6.479060263133115,
"learning_rate": 9.194245453686277e-06,
"loss": 1.7651,
"step": 69
},
{
"epoch": 0.5973333333333334,
"grad_norm": 7.319291050667066,
"learning_rate": 9.225490200071284e-06,
"loss": 1.7712,
"step": 70
},
{
"epoch": 0.6058666666666667,
"grad_norm": 6.913275412032087,
"learning_rate": 9.256291743595376e-06,
"loss": 1.709,
"step": 71
},
{
"epoch": 0.6144,
"grad_norm": 6.600657239614328,
"learning_rate": 9.28666248215634e-06,
"loss": 1.3731,
"step": 72
},
{
"epoch": 0.6229333333333333,
"grad_norm": 7.301483724647945,
"learning_rate": 9.316614300602277e-06,
"loss": 1.4166,
"step": 73
},
{
"epoch": 0.6314666666666666,
"grad_norm": 7.154933225265475,
"learning_rate": 9.346158598654881e-06,
"loss": 1.2797,
"step": 74
},
{
"epoch": 0.64,
"grad_norm": 8.248472592538771,
"learning_rate": 9.375306316958499e-06,
"loss": 1.2082,
"step": 75
},
{
"epoch": 0.6485333333333333,
"grad_norm": 7.444479096112177,
"learning_rate": 9.404067961403957e-06,
"loss": 1.0402,
"step": 76
},
{
"epoch": 0.6570666666666667,
"grad_norm": 6.819760434594012,
"learning_rate": 9.432453625862409e-06,
"loss": 0.8244,
"step": 77
},
{
"epoch": 0.6656,
"grad_norm": 6.894760862855001,
"learning_rate": 9.460473013452401e-06,
"loss": 0.8345,
"step": 78
},
{
"epoch": 0.6741333333333334,
"grad_norm": 6.001848571839919,
"learning_rate": 9.488135456452207e-06,
"loss": 0.6839,
"step": 79
},
{
"epoch": 0.6826666666666666,
"grad_norm": 5.709147411501981,
"learning_rate": 9.515449934959717e-06,
"loss": 0.6567,
"step": 80
},
{
"epoch": 0.6912,
"grad_norm": 4.128977158730638,
"learning_rate": 9.542425094393249e-06,
"loss": 0.545,
"step": 81
},
{
"epoch": 0.6997333333333333,
"grad_norm": 2.604915806147427,
"learning_rate": 9.569069261918582e-06,
"loss": 0.4596,
"step": 82
},
{
"epoch": 0.7082666666666667,
"grad_norm": 2.039939253407506,
"learning_rate": 9.59539046188037e-06,
"loss": 0.452,
"step": 83
},
{
"epoch": 0.7168,
"grad_norm": 2.0398988141415337,
"learning_rate": 9.621396430309407e-06,
"loss": 0.4538,
"step": 84
},
{
"epoch": 0.7253333333333334,
"grad_norm": 2.37589477950211,
"learning_rate": 9.647094628571464e-06,
"loss": 0.4505,
"step": 85
},
{
"epoch": 0.7338666666666667,
"grad_norm": 2.80580920047501,
"learning_rate": 9.672492256217837e-06,
"loss": 0.5284,
"step": 86
},
{
"epoch": 0.7424,
"grad_norm": 2.3687428819051197,
"learning_rate": 9.697596263093091e-06,
"loss": 0.4371,
"step": 87
},
{
"epoch": 0.7509333333333333,
"grad_norm": 1.6362502854757155,
"learning_rate": 9.722413360750844e-06,
"loss": 0.3652,
"step": 88
},
{
"epoch": 0.7594666666666666,
"grad_norm": 1.5360860168740427,
"learning_rate": 9.746950033224562e-06,
"loss": 0.3235,
"step": 89
},
{
"epoch": 0.768,
"grad_norm": 1.7245475092642693,
"learning_rate": 9.771212547196623e-06,
"loss": 0.3072,
"step": 90
},
{
"epoch": 0.7765333333333333,
"grad_norm": 1.4493496982196852,
"learning_rate": 9.795206961605467e-06,
"loss": 0.2474,
"step": 91
},
{
"epoch": 0.7850666666666667,
"grad_norm": 1.1662262130552072,
"learning_rate": 9.818939136727777e-06,
"loss": 0.2684,
"step": 92
},
{
"epoch": 0.7936,
"grad_norm": 1.1727132215390659,
"learning_rate": 9.842414742769675e-06,
"loss": 0.3456,
"step": 93
},
{
"epoch": 0.8021333333333334,
"grad_norm": 0.8435059300379855,
"learning_rate": 9.865639267998493e-06,
"loss": 0.227,
"step": 94
},
{
"epoch": 0.8106666666666666,
"grad_norm": 0.8593375804730568,
"learning_rate": 9.888618026444238e-06,
"loss": 0.1985,
"step": 95
},
{
"epoch": 0.8192,
"grad_norm": 1.0673772841412472,
"learning_rate": 9.911356165197841e-06,
"loss": 0.3195,
"step": 96
},
{
"epoch": 0.8277333333333333,
"grad_norm": 0.9341285801648793,
"learning_rate": 9.933858671331224e-06,
"loss": 0.213,
"step": 97
},
{
"epoch": 0.8362666666666667,
"grad_norm": 0.7197728549764331,
"learning_rate": 9.956130378462474e-06,
"loss": 0.2067,
"step": 98
},
{
"epoch": 0.8448,
"grad_norm": 0.5655901060353195,
"learning_rate": 9.978175972987748e-06,
"loss": 0.1708,
"step": 99
},
{
"epoch": 0.8533333333333334,
"grad_norm": 0.4681745812066334,
"learning_rate": 9.999999999999999e-06,
"loss": 0.1983,
"step": 100
},
{
"epoch": 0.8618666666666667,
"grad_norm": 0.4488180280567293,
"learning_rate": 1e-05,
"loss": 0.1401,
"step": 101
},
{
"epoch": 0.8704,
"grad_norm": 0.43194512376224187,
"learning_rate": 1e-05,
"loss": 0.1097,
"step": 102
},
{
"epoch": 0.8789333333333333,
"grad_norm": 0.3754480982834532,
"learning_rate": 1e-05,
"loss": 0.1531,
"step": 103
},
{
"epoch": 0.8874666666666666,
"grad_norm": 0.34151633602448267,
"learning_rate": 1e-05,
"loss": 0.1685,
"step": 104
},
{
"epoch": 0.896,
"grad_norm": 0.26356638458244175,
"learning_rate": 1e-05,
"loss": 0.1104,
"step": 105
},
{
"epoch": 0.9045333333333333,
"grad_norm": 0.27641004897246113,
"learning_rate": 1e-05,
"loss": 0.1589,
"step": 106
},
{
"epoch": 0.9130666666666667,
"grad_norm": 0.1639383504796773,
"learning_rate": 1e-05,
"loss": 0.1064,
"step": 107
},
{
"epoch": 0.9216,
"grad_norm": 0.24233145434818837,
"learning_rate": 1e-05,
"loss": 0.1385,
"step": 108
},
{
"epoch": 0.9301333333333334,
"grad_norm": 0.16015184210317215,
"learning_rate": 1e-05,
"loss": 0.121,
"step": 109
},
{
"epoch": 0.9386666666666666,
"grad_norm": 0.14931644417242712,
"learning_rate": 1e-05,
"loss": 0.1117,
"step": 110
},
{
"epoch": 0.9472,
"grad_norm": 0.15078311335939154,
"learning_rate": 1e-05,
"loss": 0.1034,
"step": 111
},
{
"epoch": 0.9557333333333333,
"grad_norm": 0.16714082761639734,
"learning_rate": 1e-05,
"loss": 0.115,
"step": 112
},
{
"epoch": 0.9642666666666667,
"grad_norm": 0.12479711996187942,
"learning_rate": 1e-05,
"loss": 0.1029,
"step": 113
},
{
"epoch": 0.9728,
"grad_norm": 0.14783351137940065,
"learning_rate": 1e-05,
"loss": 0.0987,
"step": 114
},
{
"epoch": 0.9813333333333333,
"grad_norm": 0.11311876630863582,
"learning_rate": 1e-05,
"loss": 0.0911,
"step": 115
},
{
"epoch": 0.9898666666666667,
"grad_norm": 0.1238329581090649,
"learning_rate": 1e-05,
"loss": 0.1095,
"step": 116
},
{
"epoch": 0.9984,
"grad_norm": 0.11117413394533605,
"learning_rate": 1e-05,
"loss": 0.0968,
"step": 117
},
{
"epoch": 1.0069333333333332,
"grad_norm": 0.09247708923706752,
"learning_rate": 1e-05,
"loss": 0.0985,
"step": 118
},
{
"epoch": 1.0154666666666667,
"grad_norm": 0.12028574166046906,
"learning_rate": 1e-05,
"loss": 0.1085,
"step": 119
},
{
"epoch": 1.024,
"grad_norm": 0.075460717991084,
"learning_rate": 1e-05,
"loss": 0.1007,
"step": 120
},
{
"epoch": 1.0325333333333333,
"grad_norm": 0.1930335796969662,
"learning_rate": 1e-05,
"loss": 0.1438,
"step": 121
},
{
"epoch": 1.0410666666666666,
"grad_norm": 0.11451251015868702,
"learning_rate": 1e-05,
"loss": 0.1365,
"step": 122
},
{
"epoch": 1.0496,
"grad_norm": 0.09360332240252384,
"learning_rate": 1e-05,
"loss": 0.1039,
"step": 123
},
{
"epoch": 1.0581333333333334,
"grad_norm": 0.13162505626586696,
"learning_rate": 1e-05,
"loss": 0.1132,
"step": 124
},
{
"epoch": 1.0666666666666667,
"grad_norm": 0.1329223725298499,
"learning_rate": 1e-05,
"loss": 0.1153,
"step": 125
},
{
"epoch": 1.0752,
"grad_norm": 0.09522360247894453,
"learning_rate": 1e-05,
"loss": 0.1264,
"step": 126
},
{
"epoch": 1.0837333333333334,
"grad_norm": 0.12467359977458509,
"learning_rate": 1e-05,
"loss": 0.0866,
"step": 127
},
{
"epoch": 1.0922666666666667,
"grad_norm": 0.08853379791954709,
"learning_rate": 1e-05,
"loss": 0.107,
"step": 128
},
{
"epoch": 1.1008,
"grad_norm": 0.16050358070185106,
"learning_rate": 1e-05,
"loss": 0.1134,
"step": 129
},
{
"epoch": 1.1093333333333333,
"grad_norm": 0.10331318962336627,
"learning_rate": 1e-05,
"loss": 0.1217,
"step": 130
},
{
"epoch": 1.1178666666666666,
"grad_norm": 0.08498886624952962,
"learning_rate": 1e-05,
"loss": 0.12,
"step": 131
},
{
"epoch": 1.1264,
"grad_norm": 0.09918910544874306,
"learning_rate": 1e-05,
"loss": 0.1173,
"step": 132
},
{
"epoch": 1.1349333333333333,
"grad_norm": 0.0751198135696547,
"learning_rate": 1e-05,
"loss": 0.0973,
"step": 133
},
{
"epoch": 1.1434666666666666,
"grad_norm": 0.07959218402066412,
"learning_rate": 1e-05,
"loss": 0.0992,
"step": 134
},
{
"epoch": 1.152,
"grad_norm": 0.14419628324779726,
"learning_rate": 1e-05,
"loss": 0.0856,
"step": 135
},
{
"epoch": 1.1605333333333334,
"grad_norm": 0.07894542967774888,
"learning_rate": 1e-05,
"loss": 0.1193,
"step": 136
},
{
"epoch": 1.1690666666666667,
"grad_norm": 0.08735606763938318,
"learning_rate": 1e-05,
"loss": 0.1061,
"step": 137
},
{
"epoch": 1.1776,
"grad_norm": 0.12344637986728384,
"learning_rate": 1e-05,
"loss": 0.1184,
"step": 138
},
{
"epoch": 1.1861333333333333,
"grad_norm": 0.07797745242316644,
"learning_rate": 1e-05,
"loss": 0.0959,
"step": 139
},
{
"epoch": 1.1946666666666665,
"grad_norm": 0.10065236259356937,
"learning_rate": 1e-05,
"loss": 0.0957,
"step": 140
},
{
"epoch": 1.2032,
"grad_norm": 0.06472006342138571,
"learning_rate": 1e-05,
"loss": 0.0721,
"step": 141
},
{
"epoch": 1.2117333333333333,
"grad_norm": 0.08080002696086562,
"learning_rate": 1e-05,
"loss": 0.1073,
"step": 142
},
{
"epoch": 1.2202666666666666,
"grad_norm": 0.10400160039217118,
"learning_rate": 1e-05,
"loss": 0.1227,
"step": 143
},
{
"epoch": 1.2288000000000001,
"grad_norm": 0.08719509476650818,
"learning_rate": 1e-05,
"loss": 0.114,
"step": 144
},
{
"epoch": 1.2373333333333334,
"grad_norm": 0.08431635436674337,
"learning_rate": 1e-05,
"loss": 0.1303,
"step": 145
},
{
"epoch": 1.2458666666666667,
"grad_norm": 0.23947926607305503,
"learning_rate": 1e-05,
"loss": 0.1199,
"step": 146
},
{
"epoch": 1.2544,
"grad_norm": 0.08794721265212341,
"learning_rate": 1e-05,
"loss": 0.1094,
"step": 147
},
{
"epoch": 1.2629333333333332,
"grad_norm": 0.08063747277184712,
"learning_rate": 1e-05,
"loss": 0.1062,
"step": 148
},
{
"epoch": 1.2714666666666667,
"grad_norm": 0.06832693897193236,
"learning_rate": 1e-05,
"loss": 0.0842,
"step": 149
},
{
"epoch": 1.28,
"grad_norm": 0.07037053759395089,
"learning_rate": 1e-05,
"loss": 0.0971,
"step": 150
},
{
"epoch": 1.2885333333333333,
"grad_norm": 0.08753063334098339,
"learning_rate": 1e-05,
"loss": 0.085,
"step": 151
},
{
"epoch": 1.2970666666666666,
"grad_norm": 0.11381804369240754,
"learning_rate": 1e-05,
"loss": 0.1156,
"step": 152
},
{
"epoch": 1.3056,
"grad_norm": 0.07203805377255211,
"learning_rate": 1e-05,
"loss": 0.0951,
"step": 153
},
{
"epoch": 1.3141333333333334,
"grad_norm": 0.1156784206459358,
"learning_rate": 1e-05,
"loss": 0.1557,
"step": 154
},
{
"epoch": 1.3226666666666667,
"grad_norm": 0.11353874538174968,
"learning_rate": 1e-05,
"loss": 0.1284,
"step": 155
},
{
"epoch": 1.3312,
"grad_norm": 0.06675505890811795,
"learning_rate": 1e-05,
"loss": 0.089,
"step": 156
},
{
"epoch": 1.3397333333333332,
"grad_norm": 0.07642955477275162,
"learning_rate": 1e-05,
"loss": 0.0825,
"step": 157
},
{
"epoch": 1.3482666666666667,
"grad_norm": 0.07196529265355209,
"learning_rate": 1e-05,
"loss": 0.0885,
"step": 158
},
{
"epoch": 1.3568,
"grad_norm": 0.08651497112727735,
"learning_rate": 1e-05,
"loss": 0.0934,
"step": 159
},
{
"epoch": 1.3653333333333333,
"grad_norm": 0.07249320769144564,
"learning_rate": 1e-05,
"loss": 0.102,
"step": 160
},
{
"epoch": 1.3738666666666668,
"grad_norm": 0.08744246078973236,
"learning_rate": 1e-05,
"loss": 0.0905,
"step": 161
},
{
"epoch": 1.3824,
"grad_norm": 0.08657071789403122,
"learning_rate": 1e-05,
"loss": 0.1217,
"step": 162
},
{
"epoch": 1.3909333333333334,
"grad_norm": 0.1064187506686306,
"learning_rate": 1e-05,
"loss": 0.1163,
"step": 163
},
{
"epoch": 1.3994666666666666,
"grad_norm": 0.1280290421664948,
"learning_rate": 1e-05,
"loss": 0.1046,
"step": 164
},
{
"epoch": 1.408,
"grad_norm": 0.09937311183437203,
"learning_rate": 1e-05,
"loss": 0.1147,
"step": 165
},
{
"epoch": 1.4165333333333332,
"grad_norm": 0.08384493963149035,
"learning_rate": 1e-05,
"loss": 0.0837,
"step": 166
},
{
"epoch": 1.4250666666666667,
"grad_norm": 0.0878469941667546,
"learning_rate": 1e-05,
"loss": 0.1034,
"step": 167
},
{
"epoch": 1.4336,
"grad_norm": 0.08507656582015763,
"learning_rate": 1e-05,
"loss": 0.1124,
"step": 168
},
{
"epoch": 1.4421333333333333,
"grad_norm": 0.14341789007671765,
"learning_rate": 1e-05,
"loss": 0.1045,
"step": 169
},
{
"epoch": 1.4506666666666668,
"grad_norm": 0.11549200338103699,
"learning_rate": 1e-05,
"loss": 0.1192,
"step": 170
},
{
"epoch": 1.4592,
"grad_norm": 0.08297398102159202,
"learning_rate": 1e-05,
"loss": 0.106,
"step": 171
},
{
"epoch": 1.4677333333333333,
"grad_norm": 0.08511454300188333,
"learning_rate": 1e-05,
"loss": 0.1115,
"step": 172
},
{
"epoch": 1.4762666666666666,
"grad_norm": 0.06731733651614974,
"learning_rate": 1e-05,
"loss": 0.0579,
"step": 173
},
{
"epoch": 1.4848,
"grad_norm": 0.08522628039447024,
"learning_rate": 1e-05,
"loss": 0.0944,
"step": 174
},
{
"epoch": 1.4933333333333334,
"grad_norm": 0.08148851689521808,
"learning_rate": 1e-05,
"loss": 0.0946,
"step": 175
},
{
"epoch": 1.5018666666666667,
"grad_norm": 0.09314761246496046,
"learning_rate": 1e-05,
"loss": 0.1077,
"step": 176
},
{
"epoch": 1.5104,
"grad_norm": 0.08337943532869242,
"learning_rate": 1e-05,
"loss": 0.0919,
"step": 177
},
{
"epoch": 1.5189333333333335,
"grad_norm": 0.07936632915317685,
"learning_rate": 1e-05,
"loss": 0.0878,
"step": 178
},
{
"epoch": 1.5274666666666668,
"grad_norm": 0.10041567827499392,
"learning_rate": 1e-05,
"loss": 0.1164,
"step": 179
},
{
"epoch": 1.536,
"grad_norm": 0.08184099557308296,
"learning_rate": 1e-05,
"loss": 0.1143,
"step": 180
},
{
"epoch": 1.5445333333333333,
"grad_norm": 0.08722428613554693,
"learning_rate": 1e-05,
"loss": 0.1068,
"step": 181
},
{
"epoch": 1.5530666666666666,
"grad_norm": 0.08710953879234071,
"learning_rate": 1e-05,
"loss": 0.11,
"step": 182
},
{
"epoch": 1.5615999999999999,
"grad_norm": 0.08115450331732889,
"learning_rate": 1e-05,
"loss": 0.0877,
"step": 183
},
{
"epoch": 1.5701333333333334,
"grad_norm": 0.06955623887568685,
"learning_rate": 1e-05,
"loss": 0.0758,
"step": 184
},
{
"epoch": 1.5786666666666667,
"grad_norm": 0.11077420984396173,
"learning_rate": 1e-05,
"loss": 0.0886,
"step": 185
},
{
"epoch": 1.5872000000000002,
"grad_norm": 0.09248170156976404,
"learning_rate": 1e-05,
"loss": 0.1042,
"step": 186
},
{
"epoch": 1.5957333333333334,
"grad_norm": 0.0875865630501027,
"learning_rate": 1e-05,
"loss": 0.0956,
"step": 187
},
{
"epoch": 1.6042666666666667,
"grad_norm": 0.09025094284776364,
"learning_rate": 1e-05,
"loss": 0.0865,
"step": 188
},
{
"epoch": 1.6128,
"grad_norm": 0.09201435441623142,
"learning_rate": 1e-05,
"loss": 0.0848,
"step": 189
},
{
"epoch": 1.6213333333333333,
"grad_norm": 0.08582347653077456,
"learning_rate": 1e-05,
"loss": 0.0868,
"step": 190
},
{
"epoch": 1.6298666666666666,
"grad_norm": 0.08390294885002035,
"learning_rate": 1e-05,
"loss": 0.0883,
"step": 191
},
{
"epoch": 1.6383999999999999,
"grad_norm": 0.09484831369314428,
"learning_rate": 1e-05,
"loss": 0.0955,
"step": 192
},
{
"epoch": 1.6469333333333334,
"grad_norm": 0.08291745035821121,
"learning_rate": 1e-05,
"loss": 0.0943,
"step": 193
},
{
"epoch": 1.6554666666666666,
"grad_norm": 0.09788087284042751,
"learning_rate": 1e-05,
"loss": 0.1146,
"step": 194
},
{
"epoch": 1.6640000000000001,
"grad_norm": 0.09763113175653552,
"learning_rate": 1e-05,
"loss": 0.1028,
"step": 195
},
{
"epoch": 1.6725333333333334,
"grad_norm": 0.11617852408102547,
"learning_rate": 1e-05,
"loss": 0.1323,
"step": 196
},
{
"epoch": 1.6810666666666667,
"grad_norm": 0.12191871384850739,
"learning_rate": 1e-05,
"loss": 0.1395,
"step": 197
},
{
"epoch": 1.6896,
"grad_norm": 0.1359943408077879,
"learning_rate": 1e-05,
"loss": 0.1191,
"step": 198
},
{
"epoch": 1.6981333333333333,
"grad_norm": 0.12006029084078058,
"learning_rate": 1e-05,
"loss": 0.0983,
"step": 199
},
{
"epoch": 1.7066666666666666,
"grad_norm": 0.09668785600159001,
"learning_rate": 1e-05,
"loss": 0.0801,
"step": 200
},
{
"epoch": 1.7151999999999998,
"grad_norm": 0.11929283034682205,
"learning_rate": 1e-05,
"loss": 0.1072,
"step": 201
},
{
"epoch": 1.7237333333333333,
"grad_norm": 0.09077598659108727,
"learning_rate": 1e-05,
"loss": 0.0835,
"step": 202
},
{
"epoch": 1.7322666666666666,
"grad_norm": 0.1315112247694008,
"learning_rate": 1e-05,
"loss": 0.1251,
"step": 203
},
{
"epoch": 1.7408000000000001,
"grad_norm": 0.10262675849503336,
"learning_rate": 1e-05,
"loss": 0.1102,
"step": 204
},
{
"epoch": 1.7493333333333334,
"grad_norm": 0.11679561974734426,
"learning_rate": 1e-05,
"loss": 0.0912,
"step": 205
},
{
"epoch": 1.7578666666666667,
"grad_norm": 0.12857201623167358,
"learning_rate": 1e-05,
"loss": 0.1108,
"step": 206
},
{
"epoch": 1.7664,
"grad_norm": 0.110417578370301,
"learning_rate": 1e-05,
"loss": 0.0713,
"step": 207
},
{
"epoch": 1.7749333333333333,
"grad_norm": 0.1206716016388202,
"learning_rate": 1e-05,
"loss": 0.099,
"step": 208
},
{
"epoch": 1.7834666666666665,
"grad_norm": 0.11690286401098868,
"learning_rate": 1e-05,
"loss": 0.1398,
"step": 209
},
{
"epoch": 1.792,
"grad_norm": 0.1087083638784744,
"learning_rate": 1e-05,
"loss": 0.1106,
"step": 210
},
{
"epoch": 1.8005333333333333,
"grad_norm": 0.13044092544075447,
"learning_rate": 1e-05,
"loss": 0.1298,
"step": 211
},
{
"epoch": 1.8090666666666668,
"grad_norm": 0.11125544216608903,
"learning_rate": 1e-05,
"loss": 0.0862,
"step": 212
},
{
"epoch": 1.8176,
"grad_norm": 0.15173848052348715,
"learning_rate": 1e-05,
"loss": 0.1116,
"step": 213
},
{
"epoch": 1.8261333333333334,
"grad_norm": 0.1300854070876123,
"learning_rate": 1e-05,
"loss": 0.0881,
"step": 214
},
{
"epoch": 1.8346666666666667,
"grad_norm": 0.12472742133557221,
"learning_rate": 1e-05,
"loss": 0.1199,
"step": 215
},
{
"epoch": 1.8432,
"grad_norm": 0.10311157164421082,
"learning_rate": 1e-05,
"loss": 0.0887,
"step": 216
},
{
"epoch": 1.8517333333333332,
"grad_norm": 0.13979969636076792,
"learning_rate": 1e-05,
"loss": 0.089,
"step": 217
},
{
"epoch": 1.8602666666666665,
"grad_norm": 0.1725935114282675,
"learning_rate": 1e-05,
"loss": 0.1232,
"step": 218
},
{
"epoch": 1.8688,
"grad_norm": 0.13035682714460442,
"learning_rate": 1e-05,
"loss": 0.0803,
"step": 219
},
{
"epoch": 1.8773333333333333,
"grad_norm": 0.11707794313507026,
"learning_rate": 1e-05,
"loss": 0.0947,
"step": 220
},
{
"epoch": 1.8858666666666668,
"grad_norm": 0.13425868511610053,
"learning_rate": 1e-05,
"loss": 0.1118,
"step": 221
},
{
"epoch": 1.8944,
"grad_norm": 0.1269119929658306,
"learning_rate": 1e-05,
"loss": 0.1075,
"step": 222
},
{
"epoch": 1.9029333333333334,
"grad_norm": 0.14370379197651403,
"learning_rate": 1e-05,
"loss": 0.084,
"step": 223
},
{
"epoch": 1.9114666666666666,
"grad_norm": 0.15625739080115553,
"learning_rate": 1e-05,
"loss": 0.1268,
"step": 224
},
{
"epoch": 1.92,
"grad_norm": 0.14298714144246835,
"learning_rate": 1e-05,
"loss": 0.1092,
"step": 225
},
{
"epoch": 1.9285333333333332,
"grad_norm": 0.1246451691187349,
"learning_rate": 1e-05,
"loss": 0.0907,
"step": 226
},
{
"epoch": 1.9370666666666667,
"grad_norm": 0.11821532122867853,
"learning_rate": 1e-05,
"loss": 0.0928,
"step": 227
},
{
"epoch": 1.9456,
"grad_norm": 0.13880790163863022,
"learning_rate": 1e-05,
"loss": 0.0925,
"step": 228
},
{
"epoch": 1.9541333333333335,
"grad_norm": 0.12467839547788233,
"learning_rate": 1e-05,
"loss": 0.0769,
"step": 229
},
{
"epoch": 1.9626666666666668,
"grad_norm": 0.1416031541406035,
"learning_rate": 1e-05,
"loss": 0.1079,
"step": 230
},
{
"epoch": 1.9712,
"grad_norm": 0.12730577347260927,
"learning_rate": 1e-05,
"loss": 0.0953,
"step": 231
},
{
"epoch": 1.9797333333333333,
"grad_norm": 0.15488312205299337,
"learning_rate": 1e-05,
"loss": 0.0938,
"step": 232
},
{
"epoch": 1.9882666666666666,
"grad_norm": 0.1285822292835917,
"learning_rate": 1e-05,
"loss": 0.0749,
"step": 233
},
{
"epoch": 1.9968,
"grad_norm": 0.15841174792939966,
"learning_rate": 1e-05,
"loss": 0.0814,
"step": 234
},
{
"epoch": 2.005333333333333,
"grad_norm": 0.1587140991418047,
"learning_rate": 1e-05,
"loss": 0.1167,
"step": 235
},
{
"epoch": 2.0138666666666665,
"grad_norm": 0.18909490284011177,
"learning_rate": 1e-05,
"loss": 0.1615,
"step": 236
},
{
"epoch": 2.0224,
"grad_norm": 0.17253418789231068,
"learning_rate": 1e-05,
"loss": 0.1135,
"step": 237
},
{
"epoch": 2.0309333333333335,
"grad_norm": 0.19155873822350467,
"learning_rate": 1e-05,
"loss": 0.1076,
"step": 238
},
{
"epoch": 2.0394666666666668,
"grad_norm": 0.1825343775540858,
"learning_rate": 1e-05,
"loss": 0.1219,
"step": 239
},
{
"epoch": 2.048,
"grad_norm": 0.245406872522052,
"learning_rate": 1e-05,
"loss": 0.1044,
"step": 240
},
{
"epoch": 2.0565333333333333,
"grad_norm": 0.15371463267090912,
"learning_rate": 1e-05,
"loss": 0.1059,
"step": 241
},
{
"epoch": 2.0650666666666666,
"grad_norm": 0.1855699524833204,
"learning_rate": 1e-05,
"loss": 0.0943,
"step": 242
},
{
"epoch": 2.0736,
"grad_norm": 0.21863118419003374,
"learning_rate": 1e-05,
"loss": 0.0857,
"step": 243
},
{
"epoch": 2.082133333333333,
"grad_norm": 0.18691055709118873,
"learning_rate": 1e-05,
"loss": 0.0912,
"step": 244
},
{
"epoch": 2.0906666666666665,
"grad_norm": 0.17533636485741497,
"learning_rate": 1e-05,
"loss": 0.1188,
"step": 245
},
{
"epoch": 2.0992,
"grad_norm": 0.14501112454384105,
"learning_rate": 1e-05,
"loss": 0.0728,
"step": 246
},
{
"epoch": 2.1077333333333335,
"grad_norm": 0.15861273943147725,
"learning_rate": 1e-05,
"loss": 0.104,
"step": 247
},
{
"epoch": 2.1162666666666667,
"grad_norm": 0.16720022104121215,
"learning_rate": 1e-05,
"loss": 0.1051,
"step": 248
},
{
"epoch": 2.1248,
"grad_norm": 0.18513133046301164,
"learning_rate": 1e-05,
"loss": 0.085,
"step": 249
},
{
"epoch": 2.1333333333333333,
"grad_norm": 0.2038309228543505,
"learning_rate": 1e-05,
"loss": 0.1185,
"step": 250
},
{
"epoch": 2.1418666666666666,
"grad_norm": 0.2018340241031602,
"learning_rate": 1e-05,
"loss": 0.0947,
"step": 251
},
{
"epoch": 2.1504,
"grad_norm": 0.2044953831493109,
"learning_rate": 1e-05,
"loss": 0.1031,
"step": 252
},
{
"epoch": 2.158933333333333,
"grad_norm": 0.24009275526510732,
"learning_rate": 1e-05,
"loss": 0.0918,
"step": 253
},
{
"epoch": 2.167466666666667,
"grad_norm": 0.18929205270781446,
"learning_rate": 1e-05,
"loss": 0.087,
"step": 254
},
{
"epoch": 2.176,
"grad_norm": 0.16911059767178782,
"learning_rate": 1e-05,
"loss": 0.0711,
"step": 255
},
{
"epoch": 2.1845333333333334,
"grad_norm": 0.22206567777898578,
"learning_rate": 1e-05,
"loss": 0.1015,
"step": 256
},
{
"epoch": 2.1930666666666667,
"grad_norm": 0.18877049982145097,
"learning_rate": 1e-05,
"loss": 0.1081,
"step": 257
},
{
"epoch": 2.2016,
"grad_norm": 0.18910569848177083,
"learning_rate": 1e-05,
"loss": 0.0928,
"step": 258
},
{
"epoch": 2.2101333333333333,
"grad_norm": 0.2215276524481291,
"learning_rate": 1e-05,
"loss": 0.0874,
"step": 259
},
{
"epoch": 2.2186666666666666,
"grad_norm": 0.19761804693984875,
"learning_rate": 1e-05,
"loss": 0.1038,
"step": 260
}
],
"logging_steps": 1,
"max_steps": 301,
"num_input_tokens_seen": 0,
"num_train_epochs": 3,
"save_steps": 20,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 3.714350084800905e+18,
"train_batch_size": 16,
"trial_name": null,
"trial_params": null
}