Training in progress, step 2360, checkpoint

320531e verified 11 days ago

42 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0669380370872907,
	"eval_steps": 800,
	"global_step": 2360,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0004522840343735866,
	"eval_loss": 2.6005213260650635,
	"eval_runtime": 106.0609,
	"eval_samples_per_second": 20.79,
	"eval_steps_per_second": 5.205,
	"step": 1
	},
	{
	"epoch": 0.004522840343735866,
	"grad_norm": 4.152566909790039,
	"learning_rate": 2.5e-06,
	"loss": 2.461,
	"step": 10
	},
	{
	"epoch": 0.009045680687471733,
	"grad_norm": 3.253302812576294,
	"learning_rate": 5e-06,
	"loss": 2.1663,
	"step": 20
	},
	{
	"epoch": 0.013568521031207599,
	"grad_norm": 3.0376248359680176,
	"learning_rate": 7.5e-06,
	"loss": 1.5723,
	"step": 30
	},
	{
	"epoch": 0.018091361374943465,
	"grad_norm": 1.5493546724319458,
	"learning_rate": 1e-05,
	"loss": 1.0123,
	"step": 40
	},
	{
	"epoch": 0.022614201718679332,
	"grad_norm": 0.7575089335441589,
	"learning_rate": 1.25e-05,
	"loss": 0.7936,
	"step": 50
	},
	{
	"epoch": 0.027137042062415198,
	"grad_norm": 1.0295528173446655,
	"learning_rate": 1.5e-05,
	"loss": 0.688,
	"step": 60
	},
	{
	"epoch": 0.031659882406151064,
	"grad_norm": 0.5441007614135742,
	"learning_rate": 1.75e-05,
	"loss": 0.6524,
	"step": 70
	},
	{
	"epoch": 0.03618272274988693,
	"grad_norm": 0.8951964974403381,
	"learning_rate": 2e-05,
	"loss": 0.6575,
	"step": 80
	},
	{
	"epoch": 0.0407055630936228,
	"grad_norm": 0.7289975881576538,
	"learning_rate": 2.25e-05,
	"loss": 0.6334,
	"step": 90
	},
	{
	"epoch": 0.045228403437358664,
	"grad_norm": 0.8988147377967834,
	"learning_rate": 2.5e-05,
	"loss": 0.6591,
	"step": 100
	},
	{
	"epoch": 0.04975124378109453,
	"grad_norm": 0.4641079902648926,
	"learning_rate": 2.7500000000000004e-05,
	"loss": 0.6724,
	"step": 110
	},
	{
	"epoch": 0.054274084124830396,
	"grad_norm": 0.6655707955360413,
	"learning_rate": 3e-05,
	"loss": 0.6467,
	"step": 120
	},
	{
	"epoch": 0.05879692446856626,
	"grad_norm": 0.7066192030906677,
	"learning_rate": 3.2500000000000004e-05,
	"loss": 0.6202,
	"step": 130
	},
	{
	"epoch": 0.06331976481230213,
	"grad_norm": 0.9096384644508362,
	"learning_rate": 3.5e-05,
	"loss": 0.6344,
	"step": 140
	},
	{
	"epoch": 0.06784260515603799,
	"grad_norm": 0.6074104905128479,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 0.5695,
	"step": 150
	},
	{
	"epoch": 0.07236544549977386,
	"grad_norm": 0.8516980409622192,
	"learning_rate": 4e-05,
	"loss": 0.5924,
	"step": 160
	},
	{
	"epoch": 0.07688828584350972,
	"grad_norm": 0.7963458299636841,
	"learning_rate": 4.25e-05,
	"loss": 0.6169,
	"step": 170
	},
	{
	"epoch": 0.0814111261872456,
	"grad_norm": 0.8972164988517761,
	"learning_rate": 4.5e-05,
	"loss": 0.5872,
	"step": 180
	},
	{
	"epoch": 0.08593396653098145,
	"grad_norm": 4.4737162590026855,
	"learning_rate": 4.75e-05,
	"loss": 0.6164,
	"step": 190
	},
	{
	"epoch": 0.09045680687471733,
	"grad_norm": 0.6346756815910339,
	"learning_rate": 5e-05,
	"loss": 0.5744,
	"step": 200
	},
	{
	"epoch": 0.09497964721845319,
	"grad_norm": 0.8093542456626892,
	"learning_rate": 5.25e-05,
	"loss": 0.5741,
	"step": 210
	},
	{
	"epoch": 0.09950248756218906,
	"grad_norm": 0.8128954768180847,
	"learning_rate": 5.500000000000001e-05,
	"loss": 0.5842,
	"step": 220
	},
	{
	"epoch": 0.10402532790592492,
	"grad_norm": 0.5212199687957764,
	"learning_rate": 5.7499999999999995e-05,
	"loss": 0.5368,
	"step": 230
	},
	{
	"epoch": 0.10854816824966079,
	"grad_norm": 0.7929616570472717,
	"learning_rate": 6e-05,
	"loss": 0.5645,
	"step": 240
	},
	{
	"epoch": 0.11307100859339665,
	"grad_norm": 0.6961472630500793,
	"learning_rate": 6.25e-05,
	"loss": 0.5541,
	"step": 250
	},
	{
	"epoch": 0.11759384893713253,
	"grad_norm": 0.6359185576438904,
	"learning_rate": 6.500000000000001e-05,
	"loss": 0.5642,
	"step": 260
	},
	{
	"epoch": 0.12211668928086838,
	"grad_norm": 0.6574355959892273,
	"learning_rate": 6.750000000000001e-05,
	"loss": 0.5556,
	"step": 270
	},
	{
	"epoch": 0.12663952962460426,
	"grad_norm": 0.5738745331764221,
	"learning_rate": 7e-05,
	"loss": 0.5582,
	"step": 280
	},
	{
	"epoch": 0.13116236996834013,
	"grad_norm": 0.3199772834777832,
	"learning_rate": 7.25e-05,
	"loss": 0.5796,
	"step": 290
	},
	{
	"epoch": 0.13568521031207598,
	"grad_norm": 0.3531240224838257,
	"learning_rate": 7.500000000000001e-05,
	"loss": 0.5612,
	"step": 300
	},
	{
	"epoch": 0.14020805065581185,
	"grad_norm": 0.5375868678092957,
	"learning_rate": 7.75e-05,
	"loss": 0.5645,
	"step": 310
	},
	{
	"epoch": 0.14473089099954772,
	"grad_norm": 0.2688968777656555,
	"learning_rate": 8e-05,
	"loss": 0.5485,
	"step": 320
	},
	{
	"epoch": 0.14925373134328357,
	"grad_norm": 0.6451207995414734,
	"learning_rate": 8.25e-05,
	"loss": 0.5242,
	"step": 330
	},
	{
	"epoch": 0.15377657168701944,
	"grad_norm": 2.1042656898498535,
	"learning_rate": 8.5e-05,
	"loss": 0.5639,
	"step": 340
	},
	{
	"epoch": 0.15829941203075532,
	"grad_norm": 0.38682234287261963,
	"learning_rate": 8.75e-05,
	"loss": 0.5417,
	"step": 350
	},
	{
	"epoch": 0.1628222523744912,
	"grad_norm": 0.5062561631202698,
	"learning_rate": 9e-05,
	"loss": 0.5509,
	"step": 360
	},
	{
	"epoch": 0.16734509271822703,
	"grad_norm": 0.6663705706596375,
	"learning_rate": 9.250000000000001e-05,
	"loss": 0.557,
	"step": 370
	},
	{
	"epoch": 0.1718679330619629,
	"grad_norm": 0.4430944323539734,
	"learning_rate": 9.5e-05,
	"loss": 0.5711,
	"step": 380
	},
	{
	"epoch": 0.17639077340569878,
	"grad_norm": 0.6567730903625488,
	"learning_rate": 9.75e-05,
	"loss": 0.5437,
	"step": 390
	},
	{
	"epoch": 0.18091361374943465,
	"grad_norm": 0.44569894671440125,
	"learning_rate": 0.0001,
	"loss": 0.5124,
	"step": 400
	},
	{
	"epoch": 0.1854364540931705,
	"grad_norm": 3.6767895221710205,
	"learning_rate": 9.999957281897735e-05,
	"loss": 0.5489,
	"step": 410
	},
	{
	"epoch": 0.18995929443690637,
	"grad_norm": 1.6086912155151367,
	"learning_rate": 9.999829128320874e-05,
	"loss": 0.5508,
	"step": 420
	},
	{
	"epoch": 0.19448213478064225,
	"grad_norm": 0.42233482003211975,
	"learning_rate": 9.999615541459207e-05,
	"loss": 0.5205,
	"step": 430
	},
	{
	"epoch": 0.19900497512437812,
	"grad_norm": 0.5907697677612305,
	"learning_rate": 9.999316524962345e-05,
	"loss": 0.5201,
	"step": 440
	},
	{
	"epoch": 0.20352781546811397,
	"grad_norm": 0.5699201226234436,
	"learning_rate": 9.998932083939656e-05,
	"loss": 0.5263,
	"step": 450
	},
	{
	"epoch": 0.20805065581184984,
	"grad_norm": 0.8701225519180298,
	"learning_rate": 9.998462224960175e-05,
	"loss": 0.5421,
	"step": 460
	},
	{
	"epoch": 0.2125734961555857,
	"grad_norm": 0.38067907094955444,
	"learning_rate": 9.997906956052494e-05,
	"loss": 0.5388,
	"step": 470
	},
	{
	"epoch": 0.21709633649932158,
	"grad_norm": 0.3497803509235382,
	"learning_rate": 9.997266286704631e-05,
	"loss": 0.5216,
	"step": 480
	},
	{
	"epoch": 0.22161917684305743,
	"grad_norm": 1.2132240533828735,
	"learning_rate": 9.996540227863854e-05,
	"loss": 0.5204,
	"step": 490
	},
	{
	"epoch": 0.2261420171867933,
	"grad_norm": 0.30633747577667236,
	"learning_rate": 9.995728791936504e-05,
	"loss": 0.5494,
	"step": 500
	},
	{
	"epoch": 0.23066485753052918,
	"grad_norm": 0.6719753742218018,
	"learning_rate": 9.994831992787788e-05,
	"loss": 0.5489,
	"step": 510
	},
	{
	"epoch": 0.23518769787426505,
	"grad_norm": 0.5767594575881958,
	"learning_rate": 9.993849845741524e-05,
	"loss": 0.5324,
	"step": 520
	},
	{
	"epoch": 0.2397105382180009,
	"grad_norm": 0.236255943775177,
	"learning_rate": 9.992782367579899e-05,
	"loss": 0.5181,
	"step": 530
	},
	{
	"epoch": 0.24423337856173677,
	"grad_norm": 0.788173258304596,
	"learning_rate": 9.991629576543163e-05,
	"loss": 0.5303,
	"step": 540
	},
	{
	"epoch": 0.24875621890547264,
	"grad_norm": 0.2152377963066101,
	"learning_rate": 9.990391492329341e-05,
	"loss": 0.5284,
	"step": 550
	},
	{
	"epoch": 0.2532790592492085,
	"grad_norm": 0.7022669911384583,
	"learning_rate": 9.989068136093873e-05,
	"loss": 0.5282,
	"step": 560
	},
	{
	"epoch": 0.25780189959294436,
	"grad_norm": 0.5153821110725403,
	"learning_rate": 9.987659530449268e-05,
	"loss": 0.5221,
	"step": 570
	},
	{
	"epoch": 0.26232473993668026,
	"grad_norm": 0.3221074640750885,
	"learning_rate": 9.986165699464705e-05,
	"loss": 0.5202,
	"step": 580
	},
	{
	"epoch": 0.2668475802804161,
	"grad_norm": 0.22985632717609406,
	"learning_rate": 9.98458666866564e-05,
	"loss": 0.5148,
	"step": 590
	},
	{
	"epoch": 0.27137042062415195,
	"grad_norm": 0.5174903869628906,
	"learning_rate": 9.98292246503335e-05,
	"loss": 0.5389,
	"step": 600
	},
	{
	"epoch": 0.27589326096788785,
	"grad_norm": 0.41488873958587646,
	"learning_rate": 9.981173117004484e-05,
	"loss": 0.514,
	"step": 610
	},
	{
	"epoch": 0.2804161013116237,
	"grad_norm": 0.4851066768169403,
	"learning_rate": 9.979338654470569e-05,
	"loss": 0.5268,
	"step": 620
	},
	{
	"epoch": 0.28493894165535955,
	"grad_norm": 0.6160866618156433,
	"learning_rate": 9.977419108777514e-05,
	"loss": 0.5216,
	"step": 630
	},
	{
	"epoch": 0.28946178199909545,
	"grad_norm": 0.47816914319992065,
	"learning_rate": 9.975414512725057e-05,
	"loss": 0.5058,
	"step": 640
	},
	{
	"epoch": 0.2939846223428313,
	"grad_norm": 0.47290515899658203,
	"learning_rate": 9.973324900566213e-05,
	"loss": 0.5233,
	"step": 650
	},
	{
	"epoch": 0.29850746268656714,
	"grad_norm": 0.5466296076774597,
	"learning_rate": 9.97115030800669e-05,
	"loss": 0.5208,
	"step": 660
	},
	{
	"epoch": 0.30303030303030304,
	"grad_norm": 0.1515071988105774,
	"learning_rate": 9.968890772204271e-05,
	"loss": 0.5153,
	"step": 670
	},
	{
	"epoch": 0.3075531433740389,
	"grad_norm": 0.22212214767932892,
	"learning_rate": 9.966546331768191e-05,
	"loss": 0.4956,
	"step": 680
	},
	{
	"epoch": 0.3120759837177748,
	"grad_norm": 0.5279558300971985,
	"learning_rate": 9.96411702675847e-05,
	"loss": 0.5137,
	"step": 690
	},
	{
	"epoch": 0.31659882406151063,
	"grad_norm": 0.49932244420051575,
	"learning_rate": 9.961602898685226e-05,
	"loss": 0.5226,
	"step": 700
	},
	{
	"epoch": 0.3211216644052465,
	"grad_norm": 0.4041373133659363,
	"learning_rate": 9.959003990507972e-05,
	"loss": 0.5063,
	"step": 710
	},
	{
	"epoch": 0.3256445047489824,
	"grad_norm": 0.22287319600582123,
	"learning_rate": 9.956320346634876e-05,
	"loss": 0.4965,
	"step": 720
	},
	{
	"epoch": 0.3301673450927182,
	"grad_norm": 0.379319429397583,
	"learning_rate": 9.953552012922012e-05,
	"loss": 0.4926,
	"step": 730
	},
	{
	"epoch": 0.33469018543645407,
	"grad_norm": 0.4465825855731964,
	"learning_rate": 9.950699036672559e-05,
	"loss": 0.5295,
	"step": 740
	},
	{
	"epoch": 0.33921302578018997,
	"grad_norm": 0.8027335405349731,
	"learning_rate": 9.947761466636014e-05,
	"loss": 0.5249,
	"step": 750
	},
	{
	"epoch": 0.3437358661239258,
	"grad_norm": 0.4452328383922577,
	"learning_rate": 9.944739353007344e-05,
	"loss": 0.5168,
	"step": 760
	},
	{
	"epoch": 0.3482587064676617,
	"grad_norm": 0.5175443291664124,
	"learning_rate": 9.941632747426129e-05,
	"loss": 0.5063,
	"step": 770
	},
	{
	"epoch": 0.35278154681139756,
	"grad_norm": 0.6492401361465454,
	"learning_rate": 9.938441702975689e-05,
	"loss": 0.5028,
	"step": 780
	},
	{
	"epoch": 0.3573043871551334,
	"grad_norm": 0.28473520278930664,
	"learning_rate": 9.93516627418217e-05,
	"loss": 0.502,
	"step": 790
	},
	{
	"epoch": 0.3618272274988693,
	"grad_norm": 0.29608818888664246,
	"learning_rate": 9.931806517013612e-05,
	"loss": 0.503,
	"step": 800
	},
	{
	"epoch": 0.3618272274988693,
	"eval_loss": 0.5416414737701416,
	"eval_runtime": 106.1622,
	"eval_samples_per_second": 20.77,
	"eval_steps_per_second": 5.2,
	"step": 800
	},
	{
	"epoch": 0.36635006784260515,
	"grad_norm": 0.13932587206363678,
	"learning_rate": 9.928362488878996e-05,
	"loss": 0.5012,
	"step": 810
	},
	{
	"epoch": 0.370872908186341,
	"grad_norm": 0.5137602686882019,
	"learning_rate": 9.92483424862726e-05,
	"loss": 0.5183,
	"step": 820
	},
	{
	"epoch": 0.3753957485300769,
	"grad_norm": 0.33779120445251465,
	"learning_rate": 9.921221856546293e-05,
	"loss": 0.5007,
	"step": 830
	},
	{
	"epoch": 0.37991858887381275,
	"grad_norm": 0.23543624579906464,
	"learning_rate": 9.917525374361912e-05,
	"loss": 0.5078,
	"step": 840
	},
	{
	"epoch": 0.38444142921754865,
	"grad_norm": 0.4530757665634155,
	"learning_rate": 9.913744865236798e-05,
	"loss": 0.519,
	"step": 850
	},
	{
	"epoch": 0.3889642695612845,
	"grad_norm": 0.29827597737312317,
	"learning_rate": 9.90988039376942e-05,
	"loss": 0.5017,
	"step": 860
	},
	{
	"epoch": 0.39348710990502034,
	"grad_norm": 0.8379443883895874,
	"learning_rate": 9.905932025992932e-05,
	"loss": 0.517,
	"step": 870
	},
	{
	"epoch": 0.39800995024875624,
	"grad_norm": 0.3807092607021332,
	"learning_rate": 9.901899829374047e-05,
	"loss": 0.5118,
	"step": 880
	},
	{
	"epoch": 0.4025327905924921,
	"grad_norm": 0.3721909523010254,
	"learning_rate": 9.897783872811882e-05,
	"loss": 0.512,
	"step": 890
	},
	{
	"epoch": 0.40705563093622793,
	"grad_norm": 0.16293685138225555,
	"learning_rate": 9.893584226636772e-05,
	"loss": 0.4883,
	"step": 900
	},
	{
	"epoch": 0.41157847127996383,
	"grad_norm": 0.2745698094367981,
	"learning_rate": 9.88930096260909e-05,
	"loss": 0.4878,
	"step": 910
	},
	{
	"epoch": 0.4161013116236997,
	"grad_norm": 0.2861226499080658,
	"learning_rate": 9.884934153917997e-05,
	"loss": 0.4861,
	"step": 920
	},
	{
	"epoch": 0.4206241519674355,
	"grad_norm": 0.14675496518611908,
	"learning_rate": 9.880483875180205e-05,
	"loss": 0.502,
	"step": 930
	},
	{
	"epoch": 0.4251469923111714,
	"grad_norm": 0.3355661928653717,
	"learning_rate": 9.8759502024387e-05,
	"loss": 0.4769,
	"step": 940
	},
	{
	"epoch": 0.42966983265490727,
	"grad_norm": 0.3499309718608856,
	"learning_rate": 9.871333213161438e-05,
	"loss": 0.5044,
	"step": 950
	},
	{
	"epoch": 0.43419267299864317,
	"grad_norm": 0.13604167103767395,
	"learning_rate": 9.86663298624003e-05,
	"loss": 0.4837,
	"step": 960
	},
	{
	"epoch": 0.438715513342379,
	"grad_norm": 0.42066818475723267,
	"learning_rate": 9.861849601988383e-05,
	"loss": 0.4768,
	"step": 970
	},
	{
	"epoch": 0.44323835368611486,
	"grad_norm": 0.2138914316892624,
	"learning_rate": 9.856983142141339e-05,
	"loss": 0.5059,
	"step": 980
	},
	{
	"epoch": 0.44776119402985076,
	"grad_norm": 0.3707284927368164,
	"learning_rate": 9.852033689853267e-05,
	"loss": 0.5059,
	"step": 990
	},
	{
	"epoch": 0.4522840343735866,
	"grad_norm": 0.6477210521697998,
	"learning_rate": 9.847001329696653e-05,
	"loss": 0.4977,
	"step": 1000
	},
	{
	"epoch": 0.45680687471732245,
	"grad_norm": 0.14800307154655457,
	"learning_rate": 9.841886147660645e-05,
	"loss": 0.4976,
	"step": 1010
	},
	{
	"epoch": 0.46132971506105835,
	"grad_norm": 0.47785401344299316,
	"learning_rate": 9.836688231149592e-05,
	"loss": 0.5012,
	"step": 1020
	},
	{
	"epoch": 0.4658525554047942,
	"grad_norm": 0.12753424048423767,
	"learning_rate": 9.831407668981546e-05,
	"loss": 0.4982,
	"step": 1030
	},
	{
	"epoch": 0.4703753957485301,
	"grad_norm": 0.2438424527645111,
	"learning_rate": 9.826044551386744e-05,
	"loss": 0.5074,
	"step": 1040
	},
	{
	"epoch": 0.47489823609226595,
	"grad_norm": 1.7088356018066406,
	"learning_rate": 9.820598970006069e-05,
	"loss": 0.5032,
	"step": 1050
	},
	{
	"epoch": 0.4794210764360018,
	"grad_norm": 0.4954736530780792,
	"learning_rate": 9.815071017889482e-05,
	"loss": 0.5021,
	"step": 1060
	},
	{
	"epoch": 0.4839439167797377,
	"grad_norm": 0.2744172513484955,
	"learning_rate": 9.809460789494432e-05,
	"loss": 0.5182,
	"step": 1070
	},
	{
	"epoch": 0.48846675712347354,
	"grad_norm": 0.3839784264564514,
	"learning_rate": 9.803768380684242e-05,
	"loss": 0.4917,
	"step": 1080
	},
	{
	"epoch": 0.4929895974672094,
	"grad_norm": 0.1647842675447464,
	"learning_rate": 9.797993888726473e-05,
	"loss": 0.5027,
	"step": 1090
	},
	{
	"epoch": 0.4975124378109453,
	"grad_norm": 0.3968697190284729,
	"learning_rate": 9.792137412291265e-05,
	"loss": 0.4932,
	"step": 1100
	},
	{
	"epoch": 0.5020352781546812,
	"grad_norm": 0.28644707798957825,
	"learning_rate": 9.786199051449636e-05,
	"loss": 0.4935,
	"step": 1110
	},
	{
	"epoch": 0.506558118498417,
	"grad_norm": 0.4823949933052063,
	"learning_rate": 9.780178907671789e-05,
	"loss": 0.4999,
	"step": 1120
	},
	{
	"epoch": 0.5110809588421529,
	"grad_norm": 0.4848293364048004,
	"learning_rate": 9.774077083825372e-05,
	"loss": 0.5054,
	"step": 1130
	},
	{
	"epoch": 0.5156037991858887,
	"grad_norm": 0.15839064121246338,
	"learning_rate": 9.767893684173721e-05,
	"loss": 0.4789,
	"step": 1140
	},
	{
	"epoch": 0.5201266395296246,
	"grad_norm": 0.34784838557243347,
	"learning_rate": 9.761628814374073e-05,
	"loss": 0.4942,
	"step": 1150
	},
	{
	"epoch": 0.5246494798733605,
	"grad_norm": 0.18030278384685516,
	"learning_rate": 9.755282581475769e-05,
	"loss": 0.4813,
	"step": 1160
	},
	{
	"epoch": 0.5291723202170964,
	"grad_norm": 0.43726080656051636,
	"learning_rate": 9.748855093918417e-05,
	"loss": 0.5017,
	"step": 1170
	},
	{
	"epoch": 0.5336951605608322,
	"grad_norm": 0.22014489769935608,
	"learning_rate": 9.742346461530048e-05,
	"loss": 0.5077,
	"step": 1180
	},
	{
	"epoch": 0.5382180009045681,
	"grad_norm": 0.2954523265361786,
	"learning_rate": 9.735756795525231e-05,
	"loss": 0.4936,
	"step": 1190
	},
	{
	"epoch": 0.5427408412483039,
	"grad_norm": 0.1660991609096527,
	"learning_rate": 9.729086208503174e-05,
	"loss": 0.4889,
	"step": 1200
	},
	{
	"epoch": 0.5472636815920398,
	"grad_norm": 0.4176950454711914,
	"learning_rate": 9.722334814445809e-05,
	"loss": 0.5041,
	"step": 1210
	},
	{
	"epoch": 0.5517865219357757,
	"grad_norm": 0.11009762436151505,
	"learning_rate": 9.715502728715826e-05,
	"loss": 0.4917,
	"step": 1220
	},
	{
	"epoch": 0.5563093622795116,
	"grad_norm": 0.652611255645752,
	"learning_rate": 9.708590068054728e-05,
	"loss": 0.4923,
	"step": 1230
	},
	{
	"epoch": 0.5608322026232474,
	"grad_norm": 0.16778019070625305,
	"learning_rate": 9.701596950580806e-05,
	"loss": 0.5064,
	"step": 1240
	},
	{
	"epoch": 0.5653550429669832,
	"grad_norm": 0.3204459547996521,
	"learning_rate": 9.694523495787149e-05,
	"loss": 0.4911,
	"step": 1250
	},
	{
	"epoch": 0.5698778833107191,
	"grad_norm": 0.4674127399921417,
	"learning_rate": 9.687369824539577e-05,
	"loss": 0.4971,
	"step": 1260
	},
	{
	"epoch": 0.574400723654455,
	"grad_norm": 0.12897251546382904,
	"learning_rate": 9.680136059074598e-05,
	"loss": 0.4798,
	"step": 1270
	},
	{
	"epoch": 0.5789235639981909,
	"grad_norm": 0.15009181201457977,
	"learning_rate": 9.672822322997305e-05,
	"loss": 0.4895,
	"step": 1280
	},
	{
	"epoch": 0.5834464043419267,
	"grad_norm": 0.304299920797348,
	"learning_rate": 9.665428741279266e-05,
	"loss": 0.498,
	"step": 1290
	},
	{
	"epoch": 0.5879692446856626,
	"grad_norm": 0.40142571926116943,
	"learning_rate": 9.657955440256395e-05,
	"loss": 0.4799,
	"step": 1300
	},
	{
	"epoch": 0.5924920850293984,
	"grad_norm": 0.17843011021614075,
	"learning_rate": 9.650402547626786e-05,
	"loss": 0.4848,
	"step": 1310
	},
	{
	"epoch": 0.5970149253731343,
	"grad_norm": 0.579076886177063,
	"learning_rate": 9.642770192448536e-05,
	"loss": 0.489,
	"step": 1320
	},
	{
	"epoch": 0.6015377657168702,
	"grad_norm": 0.4647994637489319,
	"learning_rate": 9.635058505137536e-05,
	"loss": 0.4964,
	"step": 1330
	},
	{
	"epoch": 0.6060606060606061,
	"grad_norm": 0.14807263016700745,
	"learning_rate": 9.627267617465243e-05,
	"loss": 0.492,
	"step": 1340
	},
	{
	"epoch": 0.6105834464043419,
	"grad_norm": 0.14985252916812897,
	"learning_rate": 9.619397662556435e-05,
	"loss": 0.498,
	"step": 1350
	},
	{
	"epoch": 0.6151062867480778,
	"grad_norm": 0.16624276340007782,
	"learning_rate": 9.611448774886924e-05,
	"loss": 0.4846,
	"step": 1360
	},
	{
	"epoch": 0.6196291270918136,
	"grad_norm": 0.20036545395851135,
	"learning_rate": 9.60342109028127e-05,
	"loss": 0.4919,
	"step": 1370
	},
	{
	"epoch": 0.6241519674355496,
	"grad_norm": 0.2734001576900482,
	"learning_rate": 9.595314745910456e-05,
	"loss": 0.4885,
	"step": 1380
	},
	{
	"epoch": 0.6286748077792854,
	"grad_norm": 0.12794898450374603,
	"learning_rate": 9.587129880289538e-05,
	"loss": 0.5028,
	"step": 1390
	},
	{
	"epoch": 0.6331976481230213,
	"grad_norm": 0.40597257018089294,
	"learning_rate": 9.578866633275288e-05,
	"loss": 0.5009,
	"step": 1400
	},
	{
	"epoch": 0.6377204884667571,
	"grad_norm": 0.34428995847702026,
	"learning_rate": 9.570525146063798e-05,
	"loss": 0.4905,
	"step": 1410
	},
	{
	"epoch": 0.642243328810493,
	"grad_norm": 0.33436307311058044,
	"learning_rate": 9.562105561188069e-05,
	"loss": 0.4891,
	"step": 1420
	},
	{
	"epoch": 0.6467661691542289,
	"grad_norm": 0.375051885843277,
	"learning_rate": 9.553608022515577e-05,
	"loss": 0.5031,
	"step": 1430
	},
	{
	"epoch": 0.6512890094979648,
	"grad_norm": 0.1948522925376892,
	"learning_rate": 9.545032675245813e-05,
	"loss": 0.4836,
	"step": 1440
	},
	{
	"epoch": 0.6558118498417006,
	"grad_norm": 0.08413676917552948,
	"learning_rate": 9.5363796659078e-05,
	"loss": 0.4831,
	"step": 1450
	},
	{
	"epoch": 0.6603346901854364,
	"grad_norm": 0.289809912443161,
	"learning_rate": 9.527649142357596e-05,
	"loss": 0.4851,
	"step": 1460
	},
	{
	"epoch": 0.6648575305291723,
	"grad_norm": 0.14166517555713654,
	"learning_rate": 9.518841253775755e-05,
	"loss": 0.4786,
	"step": 1470
	},
	{
	"epoch": 0.6693803708729081,
	"grad_norm": 0.13443373143672943,
	"learning_rate": 9.509956150664796e-05,
	"loss": 0.4929,
	"step": 1480
	},
	{
	"epoch": 0.6739032112166441,
	"grad_norm": 0.1985711306333542,
	"learning_rate": 9.500993984846614e-05,
	"loss": 0.481,
	"step": 1490
	},
	{
	"epoch": 0.6784260515603799,
	"grad_norm": 0.3250739276409149,
	"learning_rate": 9.491954909459895e-05,
	"loss": 0.4872,
	"step": 1500
	},
	{
	"epoch": 0.6829488919041158,
	"grad_norm": 0.32657676935195923,
	"learning_rate": 9.4828390789575e-05,
	"loss": 0.49,
	"step": 1510
	},
	{
	"epoch": 0.6874717322478516,
	"grad_norm": 0.22073891758918762,
	"learning_rate": 9.473646649103818e-05,
	"loss": 0.5,
	"step": 1520
	},
	{
	"epoch": 0.6919945725915875,
	"grad_norm": 0.22980472445487976,
	"learning_rate": 9.464377776972114e-05,
	"loss": 0.4867,
	"step": 1530
	},
	{
	"epoch": 0.6965174129353234,
	"grad_norm": 0.1441211700439453,
	"learning_rate": 9.45503262094184e-05,
	"loss": 0.4779,
	"step": 1540
	},
	{
	"epoch": 0.7010402532790593,
	"grad_norm": 0.19868245720863342,
	"learning_rate": 9.445611340695926e-05,
	"loss": 0.4917,
	"step": 1550
	},
	{
	"epoch": 0.7055630936227951,
	"grad_norm": 0.2807522714138031,
	"learning_rate": 9.43611409721806e-05,
	"loss": 0.4955,
	"step": 1560
	},
	{
	"epoch": 0.710085933966531,
	"grad_norm": 0.4753507375717163,
	"learning_rate": 9.426541052789925e-05,
	"loss": 0.4884,
	"step": 1570
	},
	{
	"epoch": 0.7146087743102668,
	"grad_norm": 0.16993290185928345,
	"learning_rate": 9.416892370988444e-05,
	"loss": 0.4816,
	"step": 1580
	},
	{
	"epoch": 0.7191316146540027,
	"grad_norm": 0.31910213828086853,
	"learning_rate": 9.407168216682962e-05,
	"loss": 0.491,
	"step": 1590
	},
	{
	"epoch": 0.7236544549977386,
	"grad_norm": 0.14142963290214539,
	"learning_rate": 9.397368756032445e-05,
	"loss": 0.4923,
	"step": 1600
	},
	{
	"epoch": 0.7236544549977386,
	"eval_loss": 0.5151379704475403,
	"eval_runtime": 104.895,
	"eval_samples_per_second": 21.021,
	"eval_steps_per_second": 5.262,
	"step": 1600
	},
	{
	"epoch": 0.7281772953414745,
	"grad_norm": 0.26469337940216064,
	"learning_rate": 9.387494156482643e-05,
	"loss": 0.4913,
	"step": 1610
	},
	{
	"epoch": 0.7327001356852103,
	"grad_norm": 0.261874794960022,
	"learning_rate": 9.377544586763215e-05,
	"loss": 0.4778,
	"step": 1620
	},
	{
	"epoch": 0.7372229760289462,
	"grad_norm": 0.24810470640659332,
	"learning_rate": 9.367520216884856e-05,
	"loss": 0.4855,
	"step": 1630
	},
	{
	"epoch": 0.741745816372682,
	"grad_norm": 0.1436118185520172,
	"learning_rate": 9.357421218136386e-05,
	"loss": 0.4847,
	"step": 1640
	},
	{
	"epoch": 0.746268656716418,
	"grad_norm": 0.16066552698612213,
	"learning_rate": 9.347247763081835e-05,
	"loss": 0.4872,
	"step": 1650
	},
	{
	"epoch": 0.7507914970601538,
	"grad_norm": 0.4255355894565582,
	"learning_rate": 9.337000025557476e-05,
	"loss": 0.4928,
	"step": 1660
	},
	{
	"epoch": 0.7553143374038896,
	"grad_norm": 0.1905021220445633,
	"learning_rate": 9.326678180668871e-05,
	"loss": 0.4904,
	"step": 1670
	},
	{
	"epoch": 0.7598371777476255,
	"grad_norm": 0.2327072024345398,
	"learning_rate": 9.316282404787871e-05,
	"loss": 0.4888,
	"step": 1680
	},
	{
	"epoch": 0.7643600180913613,
	"grad_norm": 0.20930258929729462,
	"learning_rate": 9.305812875549599e-05,
	"loss": 0.4858,
	"step": 1690
	},
	{
	"epoch": 0.7688828584350973,
	"grad_norm": 0.1341727375984192,
	"learning_rate": 9.295269771849427e-05,
	"loss": 0.4793,
	"step": 1700
	},
	{
	"epoch": 0.7734056987788331,
	"grad_norm": 0.17430901527404785,
	"learning_rate": 9.284653273839905e-05,
	"loss": 0.4969,
	"step": 1710
	},
	{
	"epoch": 0.777928539122569,
	"grad_norm": 0.5216471552848816,
	"learning_rate": 9.273963562927695e-05,
	"loss": 0.491,
	"step": 1720
	},
	{
	"epoch": 0.7824513794663048,
	"grad_norm": 0.19990628957748413,
	"learning_rate": 9.263200821770461e-05,
	"loss": 0.4651,
	"step": 1730
	},
	{
	"epoch": 0.7869742198100407,
	"grad_norm": 0.5802574753761292,
	"learning_rate": 9.252365234273755e-05,
	"loss": 0.4775,
	"step": 1740
	},
	{
	"epoch": 0.7914970601537765,
	"grad_norm": 0.18451005220413208,
	"learning_rate": 9.241456985587868e-05,
	"loss": 0.4823,
	"step": 1750
	},
	{
	"epoch": 0.7960199004975125,
	"grad_norm": 0.3577069640159607,
	"learning_rate": 9.230476262104677e-05,
	"loss": 0.4772,
	"step": 1760
	},
	{
	"epoch": 0.8005427408412483,
	"grad_norm": 0.13898539543151855,
	"learning_rate": 9.219423251454448e-05,
	"loss": 0.4746,
	"step": 1770
	},
	{
	"epoch": 0.8050655811849842,
	"grad_norm": 0.23426567018032074,
	"learning_rate": 9.208298142502636e-05,
	"loss": 0.4865,
	"step": 1780
	},
	{
	"epoch": 0.80958842152872,
	"grad_norm": 0.33651697635650635,
	"learning_rate": 9.197101125346657e-05,
	"loss": 0.5107,
	"step": 1790
	},
	{
	"epoch": 0.8141112618724559,
	"grad_norm": 0.41530391573905945,
	"learning_rate": 9.185832391312644e-05,
	"loss": 0.4836,
	"step": 1800
	},
	{
	"epoch": 0.8186341022161918,
	"grad_norm": 0.4000149965286255,
	"learning_rate": 9.174492132952166e-05,
	"loss": 0.4799,
	"step": 1810
	},
	{
	"epoch": 0.8231569425599277,
	"grad_norm": 0.2623349726200104,
	"learning_rate": 9.163080544038952e-05,
	"loss": 0.4738,
	"step": 1820
	},
	{
	"epoch": 0.8276797829036635,
	"grad_norm": 0.2306557595729828,
	"learning_rate": 9.151597819565571e-05,
	"loss": 0.4833,
	"step": 1830
	},
	{
	"epoch": 0.8322026232473994,
	"grad_norm": 0.11869548261165619,
	"learning_rate": 9.140044155740101e-05,
	"loss": 0.4836,
	"step": 1840
	},
	{
	"epoch": 0.8367254635911352,
	"grad_norm": 0.4591820240020752,
	"learning_rate": 9.12841974998278e-05,
	"loss": 0.4942,
	"step": 1850
	},
	{
	"epoch": 0.841248303934871,
	"grad_norm": 0.17287275195121765,
	"learning_rate": 9.116724800922629e-05,
	"loss": 0.4734,
	"step": 1860
	},
	{
	"epoch": 0.845771144278607,
	"grad_norm": 0.15221983194351196,
	"learning_rate": 9.104959508394061e-05,
	"loss": 0.4806,
	"step": 1870
	},
	{
	"epoch": 0.8502939846223428,
	"grad_norm": 0.4994131922721863,
	"learning_rate": 9.093124073433463e-05,
	"loss": 0.4837,
	"step": 1880
	},
	{
	"epoch": 0.8548168249660787,
	"grad_norm": 0.47702082991600037,
	"learning_rate": 9.081218698275763e-05,
	"loss": 0.4836,
	"step": 1890
	},
	{
	"epoch": 0.8593396653098145,
	"grad_norm": 0.18302541971206665,
	"learning_rate": 9.069243586350975e-05,
	"loss": 0.4837,
	"step": 1900
	},
	{
	"epoch": 0.8638625056535504,
	"grad_norm": 0.35281088948249817,
	"learning_rate": 9.057198942280722e-05,
	"loss": 0.4799,
	"step": 1910
	},
	{
	"epoch": 0.8683853459972863,
	"grad_norm": 0.30625414848327637,
	"learning_rate": 9.045084971874738e-05,
	"loss": 0.4743,
	"step": 1920
	},
	{
	"epoch": 0.8729081863410222,
	"grad_norm": 0.4937283396720886,
	"learning_rate": 9.032901882127354e-05,
	"loss": 0.5007,
	"step": 1930
	},
	{
	"epoch": 0.877431026684758,
	"grad_norm": 0.25247976183891296,
	"learning_rate": 9.020649881213958e-05,
	"loss": 0.4792,
	"step": 1940
	},
	{
	"epoch": 0.8819538670284939,
	"grad_norm": 0.43513771891593933,
	"learning_rate": 9.008329178487442e-05,
	"loss": 0.486,
	"step": 1950
	},
	{
	"epoch": 0.8864767073722297,
	"grad_norm": 0.4003300368785858,
	"learning_rate": 8.995939984474624e-05,
	"loss": 0.4871,
	"step": 1960
	},
	{
	"epoch": 0.8909995477159657,
	"grad_norm": 0.14090712368488312,
	"learning_rate": 8.983482510872645e-05,
	"loss": 0.4849,
	"step": 1970
	},
	{
	"epoch": 0.8955223880597015,
	"grad_norm": 0.5139490962028503,
	"learning_rate": 8.970956970545355e-05,
	"loss": 0.4954,
	"step": 1980
	},
	{
	"epoch": 0.9000452284034374,
	"grad_norm": 0.15464723110198975,
	"learning_rate": 8.958363577519684e-05,
	"loss": 0.4874,
	"step": 1990
	},
	{
	"epoch": 0.9045680687471732,
	"grad_norm": 0.6348758339881897,
	"learning_rate": 8.945702546981969e-05,
	"loss": 0.4893,
	"step": 2000
	},
	{
	"epoch": 0.9090909090909091,
	"grad_norm": 0.34100142121315,
	"learning_rate": 8.932974095274289e-05,
	"loss": 0.4942,
	"step": 2010
	},
	{
	"epoch": 0.9136137494346449,
	"grad_norm": 0.1424902230501175,
	"learning_rate": 8.920178439890765e-05,
	"loss": 0.4801,
	"step": 2020
	},
	{
	"epoch": 0.9181365897783809,
	"grad_norm": 0.07340684533119202,
	"learning_rate": 8.907315799473846e-05,
	"loss": 0.4734,
	"step": 2030
	},
	{
	"epoch": 0.9226594301221167,
	"grad_norm": 0.8894658088684082,
	"learning_rate": 8.894386393810563e-05,
	"loss": 0.4813,
	"step": 2040
	},
	{
	"epoch": 0.9271822704658526,
	"grad_norm": 3.0061469078063965,
	"learning_rate": 8.881390443828787e-05,
	"loss": 0.4722,
	"step": 2050
	},
	{
	"epoch": 0.9317051108095884,
	"grad_norm": 0.435508131980896,
	"learning_rate": 8.868328171593448e-05,
	"loss": 0.4856,
	"step": 2060
	},
	{
	"epoch": 0.9362279511533242,
	"grad_norm": 0.30460214614868164,
	"learning_rate": 8.855199800302736e-05,
	"loss": 0.473,
	"step": 2070
	},
	{
	"epoch": 0.9407507914970602,
	"grad_norm": 0.48862236738204956,
	"learning_rate": 8.842005554284296e-05,
	"loss": 0.4914,
	"step": 2080
	},
	{
	"epoch": 0.945273631840796,
	"grad_norm": 0.16484391689300537,
	"learning_rate": 8.828745658991386e-05,
	"loss": 0.4872,
	"step": 2090
	},
	{
	"epoch": 0.9497964721845319,
	"grad_norm": 0.19850239157676697,
	"learning_rate": 8.815420340999033e-05,
	"loss": 0.4978,
	"step": 2100
	},
	{
	"epoch": 0.9543193125282677,
	"grad_norm": 0.15624162554740906,
	"learning_rate": 8.802029828000156e-05,
	"loss": 0.4904,
	"step": 2110
	},
	{
	"epoch": 0.9588421528720036,
	"grad_norm": 0.20471015572547913,
	"learning_rate": 8.788574348801675e-05,
	"loss": 0.4818,
	"step": 2120
	},
	{
	"epoch": 0.9633649932157394,
	"grad_norm": 0.879814088344574,
	"learning_rate": 8.775054133320604e-05,
	"loss": 0.4832,
	"step": 2130
	},
	{
	"epoch": 0.9678878335594754,
	"grad_norm": 0.14262792468070984,
	"learning_rate": 8.761469412580125e-05,
	"loss": 0.4893,
	"step": 2140
	},
	{
	"epoch": 0.9724106739032112,
	"grad_norm": 0.43501853942871094,
	"learning_rate": 8.74782041870563e-05,
	"loss": 0.4751,
	"step": 2150
	},
	{
	"epoch": 0.9769335142469471,
	"grad_norm": 0.10217157751321793,
	"learning_rate": 8.73410738492077e-05,
	"loss": 0.4863,
	"step": 2160
	},
	{
	"epoch": 0.9814563545906829,
	"grad_norm": 0.550026535987854,
	"learning_rate": 8.720330545543453e-05,
	"loss": 0.4832,
	"step": 2170
	},
	{
	"epoch": 0.9859791949344188,
	"grad_norm": 0.283246785402298,
	"learning_rate": 8.706490135981855e-05,
	"loss": 0.4895,
	"step": 2180
	},
	{
	"epoch": 0.9905020352781547,
	"grad_norm": 0.21039070188999176,
	"learning_rate": 8.692586392730387e-05,
	"loss": 0.494,
	"step": 2190
	},
	{
	"epoch": 0.9950248756218906,
	"grad_norm": 0.7897614240646362,
	"learning_rate": 8.678619553365659e-05,
	"loss": 0.4871,
	"step": 2200
	},
	{
	"epoch": 0.9995477159656264,
	"grad_norm": 0.3698125183582306,
	"learning_rate": 8.66458985654242e-05,
	"loss": 0.4764,
	"step": 2210
	},
	{
	"epoch": 1.0036182722749887,
	"grad_norm": 0.529675304889679,
	"learning_rate": 8.650497541989482e-05,
	"loss": 0.4834,
	"step": 2220
	},
	{
	"epoch": 1.0081411126187245,
	"grad_norm": 0.10685670375823975,
	"learning_rate": 8.636342850505616e-05,
	"loss": 0.4864,
	"step": 2230
	},
	{
	"epoch": 1.0126639529624604,
	"grad_norm": 0.2046063244342804,
	"learning_rate": 8.622126023955446e-05,
	"loss": 0.4796,
	"step": 2240
	},
	{
	"epoch": 1.0171867933061962,
	"grad_norm": 0.2893441319465637,
	"learning_rate": 8.60784730526531e-05,
	"loss": 0.4882,
	"step": 2250
	},
	{
	"epoch": 1.021709633649932,
	"grad_norm": 0.12210704386234283,
	"learning_rate": 8.59350693841912e-05,
	"loss": 0.4805,
	"step": 2260
	},
	{
	"epoch": 1.0262324739936681,
	"grad_norm": 4.210540294647217,
	"learning_rate": 8.579105168454173e-05,
	"loss": 0.4812,
	"step": 2270
	},
	{
	"epoch": 1.030755314337404,
	"grad_norm": 0.3887004256248474,
	"learning_rate": 8.564642241456986e-05,
	"loss": 0.4804,
	"step": 2280
	},
	{
	"epoch": 1.0352781546811398,
	"grad_norm": 0.4718762934207916,
	"learning_rate": 8.550118404559075e-05,
	"loss": 0.489,
	"step": 2290
	},
	{
	"epoch": 1.0398009950248757,
	"grad_norm": 0.26404207944869995,
	"learning_rate": 8.535533905932738e-05,
	"loss": 0.4829,
	"step": 2300
	},
	{
	"epoch": 1.0443238353686115,
	"grad_norm": 0.6389791965484619,
	"learning_rate": 8.52088899478682e-05,
	"loss": 0.4806,
	"step": 2310
	},
	{
	"epoch": 1.0488466757123474,
	"grad_norm": 1.5533722639083862,
	"learning_rate": 8.506183921362443e-05,
	"loss": 0.4878,
	"step": 2320
	},
	{
	"epoch": 1.0533695160560832,
	"grad_norm": 0.30983996391296387,
	"learning_rate": 8.491418936928742e-05,
	"loss": 0.4808,
	"step": 2330
	},
	{
	"epoch": 1.057892356399819,
	"grad_norm": 0.16938813030719757,
	"learning_rate": 8.476594293778561e-05,
	"loss": 0.4863,
	"step": 2340
	},
	{
	"epoch": 1.062415196743555,
	"grad_norm": 1.2061636447906494,
	"learning_rate": 8.461710245224148e-05,
	"loss": 0.4806,
	"step": 2350
	},
	{
	"epoch": 1.0669380370872907,
	"grad_norm": 0.0852380022406578,
	"learning_rate": 8.44676704559283e-05,
	"loss": 0.4764,
	"step": 2360
	}
	],
	"logging_steps": 10,
	"max_steps": 8000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 40,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 9.09484398947074e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}