mistral-7b-v0.3-dpo / trainer_state.json

Upload folder using huggingface_hub

481e639 verified 5 months ago

26 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.998691442030882,
	"eval_steps": 500,
	"global_step": 477,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02093692750588851,
	"grad_norm": 85.02439880371094,
	"learning_rate": 3.333333333333333e-07,
	"logits/chosen": -3.096651315689087,
	"logits/rejected": -3.0814244747161865,
	"logps/chosen": -295.3846130371094,
	"logps/rejected": -279.3940124511719,
	"loss": 0.692,
	"rewards/accuracies": 0.4281249940395355,
	"rewards/chosen": 0.002148410538211465,
	"rewards/margins": 0.004025185946375132,
	"rewards/rejected": -0.0018767757574096322,
	"step": 10
	},
	{
	"epoch": 0.04187385501177702,
	"grad_norm": 74.03569030761719,
	"learning_rate": 4.998555145953054e-07,
	"logits/chosen": -3.083890199661255,
	"logits/rejected": -3.068505048751831,
	"logps/chosen": -278.1134338378906,
	"logps/rejected": -266.706298828125,
	"loss": 0.6728,
	"rewards/accuracies": 0.628125011920929,
	"rewards/chosen": 0.011356602422893047,
	"rewards/margins": 0.07497048377990723,
	"rewards/rejected": -0.0636138841509819,
	"step": 20
	},
	{
	"epoch": 0.06281078251766553,
	"grad_norm": 67.47853088378906,
	"learning_rate": 4.98700633214251e-07,
	"logits/chosen": -3.0271506309509277,
	"logits/rejected": -3.0370867252349854,
	"logps/chosen": -246.0901336669922,
	"logps/rejected": -250.2740478515625,
	"loss": 0.6305,
	"rewards/accuracies": 0.6781250238418579,
	"rewards/chosen": 0.018177634105086327,
	"rewards/margins": 0.28142982721328735,
	"rewards/rejected": -0.2632521986961365,
	"step": 30
	},
	{
	"epoch": 0.08374771002355404,
	"grad_norm": 75.60296630859375,
	"learning_rate": 4.963962085412632e-07,
	"logits/chosen": -3.030393123626709,
	"logits/rejected": -3.009413242340088,
	"logps/chosen": -298.85662841796875,
	"logps/rejected": -275.070068359375,
	"loss": 0.6267,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": -0.03324083238840103,
	"rewards/margins": 0.2483668327331543,
	"rewards/rejected": -0.28160765767097473,
	"step": 40
	},
	{
	"epoch": 0.10468463752944256,
	"grad_norm": 69.39188385009766,
	"learning_rate": 4.929528920808854e-07,
	"logits/chosen": -3.052746534347534,
	"logits/rejected": -3.066401720046997,
	"logps/chosen": -281.92706298828125,
	"logps/rejected": -246.51901245117188,
	"loss": 0.6084,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -0.020495222881436348,
	"rewards/margins": 0.40510186553001404,
	"rewards/rejected": -0.42559710144996643,
	"step": 50
	},
	{
	"epoch": 0.12562156503533106,
	"grad_norm": 83.05278015136719,
	"learning_rate": 4.883865995197318e-07,
	"logits/chosen": -3.035808563232422,
	"logits/rejected": -3.0392653942108154,
	"logps/chosen": -290.5362548828125,
	"logps/rejected": -272.5738830566406,
	"loss": 0.5792,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.049367621541023254,
	"rewards/margins": 0.44638770818710327,
	"rewards/rejected": -0.49575528502464294,
	"step": 60
	},
	{
	"epoch": 0.14655849254121958,
	"grad_norm": 68.99510955810547,
	"learning_rate": 4.82718437161051e-07,
	"logits/chosen": -3.0192034244537354,
	"logits/rejected": -3.006897449493408,
	"logps/chosen": -265.6653747558594,
	"logps/rejected": -260.2899169921875,
	"loss": 0.5846,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.11491725593805313,
	"rewards/margins": 0.38759148120880127,
	"rewards/rejected": -0.5025087594985962,
	"step": 70
	},
	{
	"epoch": 0.16749542004710807,
	"grad_norm": 63.006248474121094,
	"learning_rate": 4.7597460436723613e-07,
	"logits/chosen": -3.007894992828369,
	"logits/rejected": -2.984534740447998,
	"logps/chosen": -291.2572326660156,
	"logps/rejected": -261.5260009765625,
	"loss": 0.5843,
	"rewards/accuracies": 0.703125,
	"rewards/chosen": -0.1174750104546547,
	"rewards/margins": 0.4169933795928955,
	"rewards/rejected": -0.5344683527946472,
	"step": 80
	},
	{
	"epoch": 0.1884323475529966,
	"grad_norm": 69.54000854492188,
	"learning_rate": 4.68186272461214e-07,
	"logits/chosen": -3.0481808185577393,
	"logits/rejected": -3.036348819732666,
	"logps/chosen": -273.8735656738281,
	"logps/rejected": -258.81866455078125,
	"loss": 0.5849,
	"rewards/accuracies": 0.684374988079071,
	"rewards/chosen": -0.09798178821802139,
	"rewards/margins": 0.40805816650390625,
	"rewards/rejected": -0.5060399770736694,
	"step": 90
	},
	{
	"epoch": 0.2093692750588851,
	"grad_norm": 75.06998443603516,
	"learning_rate": 4.593894406464536e-07,
	"logits/chosen": -3.038364887237549,
	"logits/rejected": -3.0354368686676025,
	"logps/chosen": -296.1470031738281,
	"logps/rejected": -286.38592529296875,
	"loss": 0.5834,
	"rewards/accuracies": 0.703125,
	"rewards/chosen": -0.08966656774282455,
	"rewards/margins": 0.5078560709953308,
	"rewards/rejected": -0.5975226759910583,
	"step": 100
	},
	{
	"epoch": 0.23030620256477363,
	"grad_norm": 137.9207305908203,
	"learning_rate": 4.496247696115597e-07,
	"logits/chosen": -3.039151191711426,
	"logits/rejected": -3.0391647815704346,
	"logps/chosen": -303.8061828613281,
	"logps/rejected": -295.7118225097656,
	"loss": 0.5804,
	"rewards/accuracies": 0.715624988079071,
	"rewards/chosen": -0.07505225390195847,
	"rewards/margins": 0.6039966344833374,
	"rewards/rejected": -0.6790488958358765,
	"step": 110
	},
	{
	"epoch": 0.2512431300706621,
	"grad_norm": 77.84745788574219,
	"learning_rate": 4.3893739358856455e-07,
	"logits/chosen": -3.008737087249756,
	"logits/rejected": -2.9903557300567627,
	"logps/chosen": -305.4298095703125,
	"logps/rejected": -278.39947509765625,
	"loss": 0.5582,
	"rewards/accuracies": 0.721875011920929,
	"rewards/chosen": -0.14889295399188995,
	"rewards/margins": 0.5994052886962891,
	"rewards/rejected": -0.7482982277870178,
	"step": 120
	},
	{
	"epoch": 0.2721800575765506,
	"grad_norm": 67.5359115600586,
	"learning_rate": 4.273767117336217e-07,
	"logits/chosen": -3.0301320552825928,
	"logits/rejected": -3.012173891067505,
	"logps/chosen": -308.94891357421875,
	"logps/rejected": -295.3975524902344,
	"loss": 0.5478,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -0.14121344685554504,
	"rewards/margins": 0.6831844449043274,
	"rewards/rejected": -0.82439786195755,
	"step": 130
	},
	{
	"epoch": 0.29311698508243916,
	"grad_norm": 70.47966766357422,
	"learning_rate": 4.1499615979437983e-07,
	"logits/chosen": -2.9864563941955566,
	"logits/rejected": -2.9899039268493652,
	"logps/chosen": -279.08477783203125,
	"logps/rejected": -257.7115173339844,
	"loss": 0.5548,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.09717626124620438,
	"rewards/margins": 0.624592661857605,
	"rewards/rejected": -0.7217689752578735,
	"step": 140
	},
	{
	"epoch": 0.31405391258832765,
	"grad_norm": 90.4140396118164,
	"learning_rate": 4.018529631194369e-07,
	"logits/chosen": -2.9848761558532715,
	"logits/rejected": -2.9709620475769043,
	"logps/chosen": -281.3067932128906,
	"logps/rejected": -271.0277099609375,
	"loss": 0.5703,
	"rewards/accuracies": 0.721875011920929,
	"rewards/chosen": -0.2502523362636566,
	"rewards/margins": 0.6211402416229248,
	"rewards/rejected": -0.871392548084259,
	"step": 150
	},
	{
	"epoch": 0.33499084009421615,
	"grad_norm": 68.7781753540039,
	"learning_rate": 3.8800787215151164e-07,
	"logits/chosen": -3.032036066055298,
	"logits/rejected": -3.009941339492798,
	"logps/chosen": -321.748779296875,
	"logps/rejected": -281.04107666015625,
	"loss": 0.5392,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -0.12777641415596008,
	"rewards/margins": 0.6283574104309082,
	"rewards/rejected": -0.7561337947845459,
	"step": 160
	},
	{
	"epoch": 0.3559277676001047,
	"grad_norm": 66.1634292602539,
	"learning_rate": 3.7352488162693715e-07,
	"logits/chosen": -3.0462286472320557,
	"logits/rejected": -3.030794620513916,
	"logps/chosen": -274.5036926269531,
	"logps/rejected": -251.90499877929688,
	"loss": 0.5505,
	"rewards/accuracies": 0.6968749761581421,
	"rewards/chosen": -0.12955203652381897,
	"rewards/margins": 0.6119082570075989,
	"rewards/rejected": -0.7414603233337402,
	"step": 170
	},
	{
	"epoch": 0.3768646951059932,
	"grad_norm": 75.37867736816406,
	"learning_rate": 3.584709347793895e-07,
	"logits/chosen": -3.058922052383423,
	"logits/rejected": -3.0691912174224854,
	"logps/chosen": -301.69635009765625,
	"logps/rejected": -248.55593872070312,
	"loss": 0.5508,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.2145983725786209,
	"rewards/margins": 0.5311049222946167,
	"rewards/rejected": -0.7457033395767212,
	"step": 180
	},
	{
	"epoch": 0.39780162261188173,
	"grad_norm": 75.07308959960938,
	"learning_rate": 3.4291561391508185e-07,
	"logits/chosen": -3.0233283042907715,
	"logits/rejected": -3.0086400508880615,
	"logps/chosen": -278.5184326171875,
	"logps/rejected": -270.7456970214844,
	"loss": 0.5632,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.28689366579055786,
	"rewards/margins": 0.6087759733200073,
	"rewards/rejected": -0.8956696391105652,
	"step": 190
	},
	{
	"epoch": 0.4187385501177702,
	"grad_norm": 71.18640899658203,
	"learning_rate": 3.2693081878964544e-07,
	"logits/chosen": -3.0013060569763184,
	"logits/rejected": -3.005615472793579,
	"logps/chosen": -292.04852294921875,
	"logps/rejected": -276.50811767578125,
	"loss": 0.5475,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.20541390776634216,
	"rewards/margins": 0.6916528940200806,
	"rewards/rejected": -0.8970667719841003,
	"step": 200
	},
	{
	"epoch": 0.4396754776236587,
	"grad_norm": 85.28279113769531,
	"learning_rate": 3.1059043427330314e-07,
	"logits/chosen": -2.9617443084716797,
	"logits/rejected": -2.9682388305664062,
	"logps/chosen": -261.1861572265625,
	"logps/rejected": -263.7696838378906,
	"loss": 0.533,
	"rewards/accuracies": 0.778124988079071,
	"rewards/chosen": -0.204990416765213,
	"rewards/margins": 0.7386445999145508,
	"rewards/rejected": -0.9436351656913757,
	"step": 210
	},
	{
	"epoch": 0.46061240512954726,
	"grad_norm": 70.95091247558594,
	"learning_rate": 2.9396998884045234e-07,
	"logits/chosen": -3.0342681407928467,
	"logits/rejected": -3.040320873260498,
	"logps/chosen": -300.98077392578125,
	"logps/rejected": -272.7954406738281,
	"loss": 0.5389,
	"rewards/accuracies": 0.734375,
	"rewards/chosen": -0.25737327337265015,
	"rewards/margins": 0.695563018321991,
	"rewards/rejected": -0.9529362916946411,
	"step": 220
	},
	{
	"epoch": 0.48154933263543576,
	"grad_norm": 64.26698303222656,
	"learning_rate": 2.7714630546218634e-07,
	"logits/chosen": -3.1135382652282715,
	"logits/rejected": -3.1126351356506348,
	"logps/chosen": -326.8101806640625,
	"logps/rejected": -296.044921875,
	"loss": 0.5438,
	"rewards/accuracies": 0.7093750238418579,
	"rewards/chosen": -0.2218112051486969,
	"rewards/margins": 0.7040417790412903,
	"rewards/rejected": -0.9258529543876648,
	"step": 230
	},
	{
	"epoch": 0.5024862601413242,
	"grad_norm": 85.34664154052734,
	"learning_rate": 2.6019714651539645e-07,
	"logits/chosen": -3.0325405597686768,
	"logits/rejected": -3.017796516418457,
	"logps/chosen": -297.9241638183594,
	"logps/rejected": -286.4637756347656,
	"loss": 0.5647,
	"rewards/accuracies": 0.734375,
	"rewards/chosen": -0.274208128452301,
	"rewards/margins": 0.7521761655807495,
	"rewards/rejected": -1.0263843536376953,
	"step": 240
	},
	{
	"epoch": 0.5234231876472127,
	"grad_norm": 70.70326232910156,
	"learning_rate": 2.4320085434975556e-07,
	"logits/chosen": -3.0199804306030273,
	"logits/rejected": -3.01350736618042,
	"logps/chosen": -284.5586853027344,
	"logps/rejected": -259.7466125488281,
	"loss": 0.56,
	"rewards/accuracies": 0.7093750238418579,
	"rewards/chosen": -0.2730976641178131,
	"rewards/margins": 0.7632043957710266,
	"rewards/rejected": -1.036302089691162,
	"step": 250
	},
	{
	"epoch": 0.5443601151531012,
	"grad_norm": 63.27799606323242,
	"learning_rate": 2.2623598917395436e-07,
	"logits/chosen": -2.9862048625946045,
	"logits/rejected": -3.020139217376709,
	"logps/chosen": -296.0469665527344,
	"logps/rejected": -276.1849365234375,
	"loss": 0.5463,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.23287267982959747,
	"rewards/margins": 0.7090679407119751,
	"rewards/rejected": -0.9419406652450562,
	"step": 260
	},
	{
	"epoch": 0.5652970426589898,
	"grad_norm": 66.7594223022461,
	"learning_rate": 2.0938096593494853e-07,
	"logits/chosen": -3.041605234146118,
	"logits/rejected": -3.052452325820923,
	"logps/chosen": -286.18707275390625,
	"logps/rejected": -260.3746032714844,
	"loss": 0.5256,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -0.11122454702854156,
	"rewards/margins": 0.802563488483429,
	"rewards/rejected": -0.9137881398200989,
	"step": 270
	},
	{
	"epoch": 0.5862339701648783,
	"grad_norm": 88.30416107177734,
	"learning_rate": 1.9271369186863618e-07,
	"logits/chosen": -3.0525062084198,
	"logits/rejected": -3.0589468479156494,
	"logps/chosen": -284.6452941894531,
	"logps/rejected": -277.75067138671875,
	"loss": 0.5551,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.22388038039207458,
	"rewards/margins": 0.6198626756668091,
	"rewards/rejected": -0.8437430262565613,
	"step": 280
	},
	{
	"epoch": 0.6071708976707668,
	"grad_norm": 65.08110809326172,
	"learning_rate": 1.763112063972739e-07,
	"logits/chosen": -3.044279098510742,
	"logits/rejected": -3.0555179119110107,
	"logps/chosen": -285.0969543457031,
	"logps/rejected": -259.02142333984375,
	"loss": 0.5278,
	"rewards/accuracies": 0.7718750238418579,
	"rewards/chosen": -0.16408179700374603,
	"rewards/margins": 0.8104633092880249,
	"rewards/rejected": -0.9745450019836426,
	"step": 290
	},
	{
	"epoch": 0.6281078251766553,
	"grad_norm": 87.96784210205078,
	"learning_rate": 1.602493250381003e-07,
	"logits/chosen": -3.0667061805725098,
	"logits/rejected": -3.064436435699463,
	"logps/chosen": -287.88372802734375,
	"logps/rejected": -248.08615112304688,
	"loss": 0.564,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.27062320709228516,
	"rewards/margins": 0.6274420022964478,
	"rewards/rejected": -0.8980652093887329,
	"step": 300
	},
	{
	"epoch": 0.6490447526825438,
	"grad_norm": 67.1192398071289,
	"learning_rate": 1.446022889690875e-07,
	"logits/chosen": -3.0603392124176025,
	"logits/rejected": -3.0506479740142822,
	"logps/chosen": -275.33941650390625,
	"logps/rejected": -292.2793884277344,
	"loss": 0.5304,
	"rewards/accuracies": 0.734375,
	"rewards/chosen": -0.27399036288261414,
	"rewards/margins": 0.7174574136734009,
	"rewards/rejected": -0.9914478063583374,
	"step": 310
	},
	{
	"epoch": 0.6699816801884323,
	"grad_norm": 68.73091125488281,
	"learning_rate": 1.2944242187160015e-07,
	"logits/chosen": -3.0304224491119385,
	"logits/rejected": -3.0630006790161133,
	"logps/chosen": -265.5944519042969,
	"logps/rejected": -270.86041259765625,
	"loss": 0.5819,
	"rewards/accuracies": 0.7406250238418579,
	"rewards/chosen": -0.20603282749652863,
	"rewards/margins": 0.8553716540336609,
	"rewards/rejected": -1.0614043474197388,
	"step": 320
	},
	{
	"epoch": 0.6909186076943209,
	"grad_norm": 78.73789978027344,
	"learning_rate": 1.1483979563610069e-07,
	"logits/chosen": -3.044661045074463,
	"logits/rejected": -3.035492181777954,
	"logps/chosen": -274.28204345703125,
	"logps/rejected": -274.99151611328125,
	"loss": 0.5374,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -0.1646738052368164,
	"rewards/margins": 0.8839667439460754,
	"rewards/rejected": -1.048640489578247,
	"step": 330
	},
	{
	"epoch": 0.7118555352002094,
	"grad_norm": 70.24629211425781,
	"learning_rate": 1.0086190647607529e-07,
	"logits/chosen": -3.0631115436553955,
	"logits/rejected": -3.089351177215576,
	"logps/chosen": -287.9900817871094,
	"logps/rejected": -272.482421875,
	"loss": 0.5607,
	"rewards/accuracies": 0.753125011920929,
	"rewards/chosen": -0.11857350915670395,
	"rewards/margins": 0.8544532060623169,
	"rewards/rejected": -0.9730268716812134,
	"step": 340
	},
	{
	"epoch": 0.7327924627060979,
	"grad_norm": 96.91629791259766,
	"learning_rate": 8.757336294724687e-08,
	"logits/chosen": -3.068084239959717,
	"logits/rejected": -3.0875658988952637,
	"logps/chosen": -291.7541198730469,
	"logps/rejected": -258.79132080078125,
	"loss": 0.5348,
	"rewards/accuracies": 0.703125,
	"rewards/chosen": -0.15175102651119232,
	"rewards/margins": 0.8772052526473999,
	"rewards/rejected": -1.028956413269043,
	"step": 350
	},
	{
	"epoch": 0.7537293902119864,
	"grad_norm": 69.54812622070312,
	"learning_rate": 7.503558731410958e-08,
	"logits/chosen": -3.07660174369812,
	"logits/rejected": -3.0733513832092285,
	"logps/chosen": -252.8855438232422,
	"logps/rejected": -264.5438232421875,
	"loss": 0.5477,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.31728893518447876,
	"rewards/margins": 0.6826174259185791,
	"rewards/rejected": -0.9999063611030579,
	"step": 360
	},
	{
	"epoch": 0.7746663177178749,
	"grad_norm": 68.41463470458984,
	"learning_rate": 6.330653164412908e-08,
	"logits/chosen": -3.0837528705596924,
	"logits/rejected": -3.074859619140625,
	"logps/chosen": -292.6845703125,
	"logps/rejected": -274.19189453125,
	"loss": 0.5639,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.18258486688137054,
	"rewards/margins": 0.7360013723373413,
	"rewards/rejected": -0.9185863733291626,
	"step": 370
	},
	{
	"epoch": 0.7956032452237635,
	"grad_norm": 73.8513412475586,
	"learning_rate": 5.2440409941877456e-08,
	"logits/chosen": -3.080451250076294,
	"logits/rejected": -3.1014645099639893,
	"logps/chosen": -282.2720642089844,
	"logps/rejected": -274.5783996582031,
	"loss": 0.5627,
	"rewards/accuracies": 0.721875011920929,
	"rewards/chosen": -0.17349520325660706,
	"rewards/margins": 0.7617751359939575,
	"rewards/rejected": -0.9352704286575317,
	"step": 380
	},
	{
	"epoch": 0.816540172729652,
	"grad_norm": 62.425689697265625,
	"learning_rate": 4.248744756122985e-08,
	"logits/chosen": -3.1146225929260254,
	"logits/rejected": -3.1159985065460205,
	"logps/chosen": -284.4311828613281,
	"logps/rejected": -270.375244140625,
	"loss": 0.5397,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.1737302988767624,
	"rewards/margins": 0.7495090365409851,
	"rewards/rejected": -0.9232394099235535,
	"step": 390
	},
	{
	"epoch": 0.8374771002355405,
	"grad_norm": 67.75579833984375,
	"learning_rate": 3.349364905389032e-08,
	"logits/chosen": -3.039133071899414,
	"logits/rejected": -3.0417704582214355,
	"logps/chosen": -289.43792724609375,
	"logps/rejected": -279.08123779296875,
	"loss": 0.5557,
	"rewards/accuracies": 0.7281249761581421,
	"rewards/chosen": -0.19276252388954163,
	"rewards/margins": 0.713485062122345,
	"rewards/rejected": -0.906247615814209,
	"step": 400
	},
	{
	"epoch": 0.8584140277414289,
	"grad_norm": 60.96617126464844,
	"learning_rate": 2.550058552729639e-08,
	"logits/chosen": -3.0589489936828613,
	"logits/rejected": -3.0491528511047363,
	"logps/chosen": -298.5786437988281,
	"logps/rejected": -275.2989807128906,
	"loss": 0.5378,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -0.22146447002887726,
	"rewards/margins": 0.7704640626907349,
	"rewards/rejected": -0.9919285774230957,
	"step": 410
	},
	{
	"epoch": 0.8793509552473174,
	"grad_norm": 57.156639099121094,
	"learning_rate": 1.854520249477551e-08,
	"logits/chosen": -3.0775399208068848,
	"logits/rejected": -3.0917420387268066,
	"logps/chosen": -281.49053955078125,
	"logps/rejected": -252.451416015625,
	"loss": 0.5338,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -0.14828899502754211,
	"rewards/margins": 0.7465869188308716,
	"rewards/rejected": -0.8948760032653809,
	"step": 420
	},
	{
	"epoch": 0.9002878827532059,
	"grad_norm": 80.24808502197266,
	"learning_rate": 1.265964910610884e-08,
	"logits/chosen": -3.1026782989501953,
	"logits/rejected": -3.111166477203369,
	"logps/chosen": -285.04193115234375,
	"logps/rejected": -284.14410400390625,
	"loss": 0.5455,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -0.1942686289548874,
	"rewards/margins": 0.8707529306411743,
	"rewards/rejected": -1.0650215148925781,
	"step": 430
	},
	{
	"epoch": 0.9212248102590945,
	"grad_norm": 61.17852020263672,
	"learning_rate": 7.871129547831062e-09,
	"logits/chosen": -3.0820913314819336,
	"logits/rejected": -3.0653717517852783,
	"logps/chosen": -278.7796325683594,
	"logps/rejected": -235.0684814453125,
	"loss": 0.5408,
	"rewards/accuracies": 0.7093750238418579,
	"rewards/chosen": -0.23389343917369843,
	"rewards/margins": 0.6883670091629028,
	"rewards/rejected": -0.9222604632377625,
	"step": 440
	},
	{
	"epoch": 0.942161737764983,
	"grad_norm": 85.3263168334961,
	"learning_rate": 4.201777300124249e-09,
	"logits/chosen": -3.0574049949645996,
	"logits/rejected": -3.0575528144836426,
	"logps/chosen": -273.01531982421875,
	"logps/rejected": -243.1544189453125,
	"loss": 0.5495,
	"rewards/accuracies": 0.746874988079071,
	"rewards/chosen": -0.13399073481559753,
	"rewards/margins": 0.6954258680343628,
	"rewards/rejected": -0.8294164538383484,
	"step": 450
	},
	{
	"epoch": 0.9630986652708715,
	"grad_norm": 67.3755874633789,
	"learning_rate": 1.6685528315146802e-09,
	"logits/chosen": -3.0953588485717773,
	"logits/rejected": -3.0970802307128906,
	"logps/chosen": -282.9346618652344,
	"logps/rejected": -261.16497802734375,
	"loss": 0.5443,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.24288193881511688,
	"rewards/margins": 0.7198012471199036,
	"rewards/rejected": -0.9626832008361816,
	"step": 460
	},
	{
	"epoch": 0.98403559277676,
	"grad_norm": 61.79122543334961,
	"learning_rate": 2.831652042480093e-10,
	"logits/chosen": -3.086475372314453,
	"logits/rejected": -3.0854830741882324,
	"logps/chosen": -301.7154235839844,
	"logps/rejected": -291.1816101074219,
	"loss": 0.5439,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -0.232115238904953,
	"rewards/margins": 0.7247028350830078,
	"rewards/rejected": -0.9568179845809937,
	"step": 470
	},
	{
	"epoch": 0.998691442030882,
	"step": 477,
	"total_flos": 5.005717235969294e+18,
	"train_loss": 0.5631812908364542,
	"train_runtime": 18694.5367,
	"train_samples_per_second": 3.27,
	"train_steps_per_second": 0.026
	}
	],
	"logging_steps": 10,
	"max_steps": 477,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 256,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 5.005717235969294e+18,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}