Training in progress, epoch 1

c0efc49 verified 4 months ago

36.1 kB

	{
	"best_metric": 0.466439425945282,
	"best_model_checkpoint": "/home/datawork-iot-nos/Seatizen/models/multilabel/drone/drone-DinoVdeau-from-binary-large-2024_11_14-batch-size16_freeze_probs/checkpoint-22776",
	"epoch": 62.0,
	"eval_steps": 500,
	"global_step": 27156,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"eval_explained_variance": 0.3631434440612793,
	"eval_kl_divergence": 0.421912282705307,
	"eval_loss": 0.4821413457393646,
	"eval_mae": 0.13084472715854645,
	"eval_rmse": 0.173090398311615,
	"eval_runtime": 64.2475,
	"eval_samples_per_second": 36.64,
	"eval_steps_per_second": 2.304,
	"learning_rate": 0.001,
	"step": 438
	},
	{
	"epoch": 1.1415525114155252,
	"grad_norm": 0.4757365882396698,
	"learning_rate": 0.001,
	"loss": 0.5317,
	"step": 500
	},
	{
	"epoch": 2.0,
	"eval_explained_variance": 0.3752269744873047,
	"eval_kl_divergence": 0.6148446202278137,
	"eval_loss": 0.4784533977508545,
	"eval_mae": 0.12629373371601105,
	"eval_rmse": 0.17098082602024078,
	"eval_runtime": 63.6833,
	"eval_samples_per_second": 36.964,
	"eval_steps_per_second": 2.324,
	"learning_rate": 0.001,
	"step": 876
	},
	{
	"epoch": 2.2831050228310503,
	"grad_norm": 0.4254082143306732,
	"learning_rate": 0.001,
	"loss": 0.4832,
	"step": 1000
	},
	{
	"epoch": 3.0,
	"eval_explained_variance": 0.3838556706905365,
	"eval_kl_divergence": 0.48802560567855835,
	"eval_loss": 0.47776785492897034,
	"eval_mae": 0.12731628119945526,
	"eval_rmse": 0.16985835134983063,
	"eval_runtime": 62.637,
	"eval_samples_per_second": 37.582,
	"eval_steps_per_second": 2.363,
	"learning_rate": 0.001,
	"step": 1314
	},
	{
	"epoch": 3.4246575342465753,
	"grad_norm": 0.2670271098613739,
	"learning_rate": 0.001,
	"loss": 0.4791,
	"step": 1500
	},
	{
	"epoch": 4.0,
	"eval_explained_variance": 0.38376739621162415,
	"eval_kl_divergence": 0.3418101370334625,
	"eval_loss": 0.4793245792388916,
	"eval_mae": 0.12901858985424042,
	"eval_rmse": 0.171015664935112,
	"eval_runtime": 62.2828,
	"eval_samples_per_second": 37.795,
	"eval_steps_per_second": 2.376,
	"learning_rate": 0.001,
	"step": 1752
	},
	{
	"epoch": 4.566210045662101,
	"grad_norm": 0.20498104393482208,
	"learning_rate": 0.001,
	"loss": 0.4771,
	"step": 2000
	},
	{
	"epoch": 5.0,
	"eval_explained_variance": 0.40547776222229004,
	"eval_kl_divergence": 0.34562820196151733,
	"eval_loss": 0.47521594166755676,
	"eval_mae": 0.12799377739429474,
	"eval_rmse": 0.16736441850662231,
	"eval_runtime": 62.7606,
	"eval_samples_per_second": 37.508,
	"eval_steps_per_second": 2.358,
	"learning_rate": 0.001,
	"step": 2190
	},
	{
	"epoch": 5.707762557077626,
	"grad_norm": 0.24335043132305145,
	"learning_rate": 0.001,
	"loss": 0.4752,
	"step": 2500
	},
	{
	"epoch": 6.0,
	"eval_explained_variance": 0.3849389851093292,
	"eval_kl_divergence": 0.6402714848518372,
	"eval_loss": 0.478865385055542,
	"eval_mae": 0.12540282309055328,
	"eval_rmse": 0.17068879306316376,
	"eval_runtime": 63.4836,
	"eval_samples_per_second": 37.08,
	"eval_steps_per_second": 2.331,
	"learning_rate": 0.001,
	"step": 2628
	},
	{
	"epoch": 6.8493150684931505,
	"grad_norm": 0.18768365681171417,
	"learning_rate": 0.001,
	"loss": 0.4752,
	"step": 3000
	},
	{
	"epoch": 7.0,
	"eval_explained_variance": 0.3788411617279053,
	"eval_kl_divergence": 0.5491646528244019,
	"eval_loss": 0.4779475927352905,
	"eval_mae": 0.12878474593162537,
	"eval_rmse": 0.17091502249240875,
	"eval_runtime": 63.4904,
	"eval_samples_per_second": 37.076,
	"eval_steps_per_second": 2.331,
	"learning_rate": 0.001,
	"step": 3066
	},
	{
	"epoch": 7.9908675799086755,
	"grad_norm": 0.1587909311056137,
	"learning_rate": 0.001,
	"loss": 0.4735,
	"step": 3500
	},
	{
	"epoch": 8.0,
	"eval_explained_variance": 0.40857037901878357,
	"eval_kl_divergence": 0.33827269077301025,
	"eval_loss": 0.4756968021392822,
	"eval_mae": 0.12695902585983276,
	"eval_rmse": 0.16784566640853882,
	"eval_runtime": 64.8792,
	"eval_samples_per_second": 36.283,
	"eval_steps_per_second": 2.281,
	"learning_rate": 0.001,
	"step": 3504
	},
	{
	"epoch": 9.0,
	"eval_explained_variance": 0.4111548960208893,
	"eval_kl_divergence": 0.5417521595954895,
	"eval_loss": 0.4731782376766205,
	"eval_mae": 0.12311580032110214,
	"eval_rmse": 0.1657222956418991,
	"eval_runtime": 61.0673,
	"eval_samples_per_second": 38.548,
	"eval_steps_per_second": 2.424,
	"learning_rate": 0.001,
	"step": 3942
	},
	{
	"epoch": 9.132420091324201,
	"grad_norm": 0.1892658919095993,
	"learning_rate": 0.001,
	"loss": 0.4719,
	"step": 4000
	},
	{
	"epoch": 10.0,
	"eval_explained_variance": 0.4006313979625702,
	"eval_kl_divergence": 0.15472176671028137,
	"eval_loss": 0.4799855649471283,
	"eval_mae": 0.1320570707321167,
	"eval_rmse": 0.1722680777311325,
	"eval_runtime": 62.7974,
	"eval_samples_per_second": 37.486,
	"eval_steps_per_second": 2.357,
	"learning_rate": 0.001,
	"step": 4380
	},
	{
	"epoch": 10.273972602739725,
	"grad_norm": 0.20271532237529755,
	"learning_rate": 0.001,
	"loss": 0.4727,
	"step": 4500
	},
	{
	"epoch": 11.0,
	"eval_explained_variance": 0.41580215096473694,
	"eval_kl_divergence": 0.3436921238899231,
	"eval_loss": 0.4731641411781311,
	"eval_mae": 0.12562014162540436,
	"eval_rmse": 0.16564464569091797,
	"eval_runtime": 62.757,
	"eval_samples_per_second": 37.51,
	"eval_steps_per_second": 2.358,
	"learning_rate": 0.001,
	"step": 4818
	},
	{
	"epoch": 11.415525114155251,
	"grad_norm": 0.15571434795856476,
	"learning_rate": 0.001,
	"loss": 0.4723,
	"step": 5000
	},
	{
	"epoch": 12.0,
	"eval_explained_variance": 0.401115745306015,
	"eval_kl_divergence": 0.2946830093860626,
	"eval_loss": 0.47767141461372375,
	"eval_mae": 0.12927968800067902,
	"eval_rmse": 0.17007046937942505,
	"eval_runtime": 62.3684,
	"eval_samples_per_second": 37.743,
	"eval_steps_per_second": 2.373,
	"learning_rate": 0.001,
	"step": 5256
	},
	{
	"epoch": 12.557077625570777,
	"grad_norm": 0.16043365001678467,
	"learning_rate": 0.001,
	"loss": 0.4735,
	"step": 5500
	},
	{
	"epoch": 13.0,
	"eval_explained_variance": 0.39704158902168274,
	"eval_kl_divergence": 0.6136478781700134,
	"eval_loss": 0.48009705543518066,
	"eval_mae": 0.12475714087486267,
	"eval_rmse": 0.16773907840251923,
	"eval_runtime": 64.7917,
	"eval_samples_per_second": 36.332,
	"eval_steps_per_second": 2.284,
	"learning_rate": 0.001,
	"step": 5694
	},
	{
	"epoch": 13.698630136986301,
	"grad_norm": 0.13616104423999786,
	"learning_rate": 0.001,
	"loss": 0.4728,
	"step": 6000
	},
	{
	"epoch": 14.0,
	"eval_explained_variance": 0.40355002880096436,
	"eval_kl_divergence": Infinity,
	"eval_loss": 0.4954195022583008,
	"eval_mae": 0.12534154951572418,
	"eval_rmse": 0.16692323982715607,
	"eval_runtime": 62.1801,
	"eval_samples_per_second": 37.858,
	"eval_steps_per_second": 2.38,
	"learning_rate": 0.001,
	"step": 6132
	},
	{
	"epoch": 14.840182648401827,
	"grad_norm": 0.12133222818374634,
	"learning_rate": 0.001,
	"loss": 0.4713,
	"step": 6500
	},
	{
	"epoch": 15.0,
	"eval_explained_variance": 0.4051372706890106,
	"eval_kl_divergence": Infinity,
	"eval_loss": 0.4812238812446594,
	"eval_mae": 0.12540575861930847,
	"eval_rmse": 0.16624794900417328,
	"eval_runtime": 61.3206,
	"eval_samples_per_second": 38.388,
	"eval_steps_per_second": 2.414,
	"learning_rate": 0.001,
	"step": 6570
	},
	{
	"epoch": 15.981735159817351,
	"grad_norm": 0.11760278791189194,
	"learning_rate": 0.0001,
	"loss": 0.4706,
	"step": 7000
	},
	{
	"epoch": 16.0,
	"eval_explained_variance": 0.41243478655815125,
	"eval_kl_divergence": Infinity,
	"eval_loss": 0.4858487546443939,
	"eval_mae": 0.12432911992073059,
	"eval_rmse": 0.16562338173389435,
	"eval_runtime": 61.1501,
	"eval_samples_per_second": 38.495,
	"eval_steps_per_second": 2.42,
	"learning_rate": 0.0001,
	"step": 7008
	},
	{
	"epoch": 17.0,
	"eval_explained_variance": 0.4291960895061493,
	"eval_kl_divergence": 0.41650328040122986,
	"eval_loss": 0.47084349393844604,
	"eval_mae": 0.12233477830886841,
	"eval_rmse": 0.162751242518425,
	"eval_runtime": 60.5736,
	"eval_samples_per_second": 38.862,
	"eval_steps_per_second": 2.443,
	"learning_rate": 0.0001,
	"step": 7446
	},
	{
	"epoch": 17.123287671232877,
	"grad_norm": 0.13284093141555786,
	"learning_rate": 0.0001,
	"loss": 0.4672,
	"step": 7500
	},
	{
	"epoch": 18.0,
	"eval_explained_variance": 0.43114474415779114,
	"eval_kl_divergence": 0.4066373407840729,
	"eval_loss": 0.4707622528076172,
	"eval_mae": 0.12164173275232315,
	"eval_rmse": 0.16261519491672516,
	"eval_runtime": 63.1248,
	"eval_samples_per_second": 37.291,
	"eval_steps_per_second": 2.345,
	"learning_rate": 0.0001,
	"step": 7884
	},
	{
	"epoch": 18.264840182648403,
	"grad_norm": 0.11859569698572159,
	"learning_rate": 0.0001,
	"loss": 0.4659,
	"step": 8000
	},
	{
	"epoch": 19.0,
	"eval_explained_variance": 0.4342735707759857,
	"eval_kl_divergence": 0.31854644417762756,
	"eval_loss": 0.47095733880996704,
	"eval_mae": 0.12272538989782333,
	"eval_rmse": 0.16323107481002808,
	"eval_runtime": 61.7089,
	"eval_samples_per_second": 38.147,
	"eval_steps_per_second": 2.398,
	"learning_rate": 0.0001,
	"step": 8322
	},
	{
	"epoch": 19.40639269406393,
	"grad_norm": 0.16951066255569458,
	"learning_rate": 0.0001,
	"loss": 0.4653,
	"step": 8500
	},
	{
	"epoch": 20.0,
	"eval_explained_variance": 0.43487218022346497,
	"eval_kl_divergence": 0.465139240026474,
	"eval_loss": 0.4696938395500183,
	"eval_mae": 0.12050192803144455,
	"eval_rmse": 0.1620241105556488,
	"eval_runtime": 61.0162,
	"eval_samples_per_second": 38.58,
	"eval_steps_per_second": 2.426,
	"learning_rate": 0.0001,
	"step": 8760
	},
	{
	"epoch": 20.54794520547945,
	"grad_norm": 0.167369082570076,
	"learning_rate": 0.0001,
	"loss": 0.4653,
	"step": 9000
	},
	{
	"epoch": 21.0,
	"eval_explained_variance": 0.4389828145503998,
	"eval_kl_divergence": 0.3772728741168976,
	"eval_loss": 0.46922874450683594,
	"eval_mae": 0.12155676633119583,
	"eval_rmse": 0.16139467060565948,
	"eval_runtime": 62.17,
	"eval_samples_per_second": 37.864,
	"eval_steps_per_second": 2.381,
	"learning_rate": 0.0001,
	"step": 9198
	},
	{
	"epoch": 21.689497716894977,
	"grad_norm": 0.1247042864561081,
	"learning_rate": 0.0001,
	"loss": 0.4659,
	"step": 9500
	},
	{
	"epoch": 22.0,
	"eval_explained_variance": 0.43975934386253357,
	"eval_kl_divergence": 0.4611187279224396,
	"eval_loss": 0.4685634672641754,
	"eval_mae": 0.1203194335103035,
	"eval_rmse": 0.16088876128196716,
	"eval_runtime": 62.0052,
	"eval_samples_per_second": 37.965,
	"eval_steps_per_second": 2.387,
	"learning_rate": 0.0001,
	"step": 9636
	},
	{
	"epoch": 22.831050228310502,
	"grad_norm": 0.16208066046237946,
	"learning_rate": 0.0001,
	"loss": 0.465,
	"step": 10000
	},
	{
	"epoch": 23.0,
	"eval_explained_variance": 0.44279029965400696,
	"eval_kl_divergence": 0.24986685812473297,
	"eval_loss": 0.47018975019454956,
	"eval_mae": 0.12256480008363724,
	"eval_rmse": 0.16208301484584808,
	"eval_runtime": 61.6543,
	"eval_samples_per_second": 38.181,
	"eval_steps_per_second": 2.4,
	"learning_rate": 0.0001,
	"step": 10074
	},
	{
	"epoch": 23.972602739726028,
	"grad_norm": 0.17417912185192108,
	"learning_rate": 0.0001,
	"loss": 0.4633,
	"step": 10500
	},
	{
	"epoch": 24.0,
	"eval_explained_variance": 0.4367590844631195,
	"eval_kl_divergence": 0.3702172040939331,
	"eval_loss": 0.4705464243888855,
	"eval_mae": 0.12131566554307938,
	"eval_rmse": 0.16277877986431122,
	"eval_runtime": 62.8273,
	"eval_samples_per_second": 37.468,
	"eval_steps_per_second": 2.356,
	"learning_rate": 0.0001,
	"step": 10512
	},
	{
	"epoch": 25.0,
	"eval_explained_variance": 0.4433206617832184,
	"eval_kl_divergence": 0.5132729411125183,
	"eval_loss": 0.4678299129009247,
	"eval_mae": 0.11875440925359726,
	"eval_rmse": 0.16013289988040924,
	"eval_runtime": 61.7077,
	"eval_samples_per_second": 38.148,
	"eval_steps_per_second": 2.398,
	"learning_rate": 0.0001,
	"step": 10950
	},
	{
	"epoch": 25.114155251141554,
	"grad_norm": 0.13617579638957977,
	"learning_rate": 0.0001,
	"loss": 0.4656,
	"step": 11000
	},
	{
	"epoch": 26.0,
	"eval_explained_variance": 0.4423791468143463,
	"eval_kl_divergence": 0.5665323138237,
	"eval_loss": 0.46802961826324463,
	"eval_mae": 0.117874376475811,
	"eval_rmse": 0.1604483276605606,
	"eval_runtime": 61.9639,
	"eval_samples_per_second": 37.99,
	"eval_steps_per_second": 2.388,
	"learning_rate": 0.0001,
	"step": 11388
	},
	{
	"epoch": 26.255707762557076,
	"grad_norm": 0.15818916261196136,
	"learning_rate": 0.0001,
	"loss": 0.4629,
	"step": 11500
	},
	{
	"epoch": 27.0,
	"eval_explained_variance": 0.4434410333633423,
	"eval_kl_divergence": 0.42424070835113525,
	"eval_loss": 0.4680938124656677,
	"eval_mae": 0.1199984923005104,
	"eval_rmse": 0.16038183867931366,
	"eval_runtime": 62.3144,
	"eval_samples_per_second": 37.776,
	"eval_steps_per_second": 2.375,
	"learning_rate": 0.0001,
	"step": 11826
	},
	{
	"epoch": 27.397260273972602,
	"grad_norm": 0.15971983969211578,
	"learning_rate": 0.0001,
	"loss": 0.4636,
	"step": 12000
	},
	{
	"epoch": 28.0,
	"eval_explained_variance": 0.44512465596199036,
	"eval_kl_divergence": 0.2967982292175293,
	"eval_loss": 0.4693257212638855,
	"eval_mae": 0.12149528414011002,
	"eval_rmse": 0.1616295725107193,
	"eval_runtime": 66.789,
	"eval_samples_per_second": 35.245,
	"eval_steps_per_second": 2.216,
	"learning_rate": 0.0001,
	"step": 12264
	},
	{
	"epoch": 28.538812785388128,
	"grad_norm": 0.15448875725269318,
	"learning_rate": 0.0001,
	"loss": 0.4633,
	"step": 12500
	},
	{
	"epoch": 29.0,
	"eval_explained_variance": 0.4442717730998993,
	"eval_kl_divergence": 0.3924856185913086,
	"eval_loss": 0.46847742795944214,
	"eval_mae": 0.1196620985865593,
	"eval_rmse": 0.16072382032871246,
	"eval_runtime": 61.9086,
	"eval_samples_per_second": 38.024,
	"eval_steps_per_second": 2.391,
	"learning_rate": 0.0001,
	"step": 12702
	},
	{
	"epoch": 29.680365296803654,
	"grad_norm": 0.15532433986663818,
	"learning_rate": 0.0001,
	"loss": 0.4631,
	"step": 13000
	},
	{
	"epoch": 30.0,
	"eval_explained_variance": 0.4473068416118622,
	"eval_kl_divergence": 0.2495478093624115,
	"eval_loss": 0.46944141387939453,
	"eval_mae": 0.12209376692771912,
	"eval_rmse": 0.16142255067825317,
	"eval_runtime": 62.4285,
	"eval_samples_per_second": 37.707,
	"eval_steps_per_second": 2.371,
	"learning_rate": 0.0001,
	"step": 13140
	},
	{
	"epoch": 30.82191780821918,
	"grad_norm": 0.1961052566766739,
	"learning_rate": 0.0001,
	"loss": 0.463,
	"step": 13500
	},
	{
	"epoch": 31.0,
	"eval_explained_variance": 0.4445982277393341,
	"eval_kl_divergence": 0.45099732279777527,
	"eval_loss": 0.4678958058357239,
	"eval_mae": 0.11854251474142075,
	"eval_rmse": 0.16011421382427216,
	"eval_runtime": 61.3729,
	"eval_samples_per_second": 38.356,
	"eval_steps_per_second": 2.411,
	"learning_rate": 0.0001,
	"step": 13578
	},
	{
	"epoch": 31.963470319634702,
	"grad_norm": 0.3346303701400757,
	"learning_rate": 1e-05,
	"loss": 0.4623,
	"step": 14000
	},
	{
	"epoch": 32.0,
	"eval_explained_variance": 0.4478188455104828,
	"eval_kl_divergence": 0.3885524570941925,
	"eval_loss": 0.46778997778892517,
	"eval_mae": 0.11933697015047073,
	"eval_rmse": 0.16006481647491455,
	"eval_runtime": 63.8544,
	"eval_samples_per_second": 36.865,
	"eval_steps_per_second": 2.318,
	"learning_rate": 1e-05,
	"step": 14016
	},
	{
	"epoch": 33.0,
	"eval_explained_variance": 0.44756200909614563,
	"eval_kl_divergence": 0.31322383880615234,
	"eval_loss": 0.4686955511569977,
	"eval_mae": 0.1201881393790245,
	"eval_rmse": 0.16055406630039215,
	"eval_runtime": 62.7334,
	"eval_samples_per_second": 37.524,
	"eval_steps_per_second": 2.359,
	"learning_rate": 1e-05,
	"step": 14454
	},
	{
	"epoch": 33.10502283105023,
	"grad_norm": 0.21087272465229034,
	"learning_rate": 1e-05,
	"loss": 0.4621,
	"step": 14500
	},
	{
	"epoch": 34.0,
	"eval_explained_variance": 0.4478868544101715,
	"eval_kl_divergence": 0.3957745432853699,
	"eval_loss": 0.46784329414367676,
	"eval_mae": 0.11951460689306259,
	"eval_rmse": 0.1600986272096634,
	"eval_runtime": 60.6174,
	"eval_samples_per_second": 38.834,
	"eval_steps_per_second": 2.442,
	"learning_rate": 1e-05,
	"step": 14892
	},
	{
	"epoch": 34.24657534246575,
	"grad_norm": 0.1875353455543518,
	"learning_rate": 1e-05,
	"loss": 0.4607,
	"step": 15000
	},
	{
	"epoch": 35.0,
	"eval_explained_variance": 0.44849491119384766,
	"eval_kl_divergence": 0.45786312222480774,
	"eval_loss": 0.4671097695827484,
	"eval_mae": 0.11800643056631088,
	"eval_rmse": 0.15947793424129486,
	"eval_runtime": 61.7609,
	"eval_samples_per_second": 38.115,
	"eval_steps_per_second": 2.396,
	"learning_rate": 1e-05,
	"step": 15330
	},
	{
	"epoch": 35.38812785388128,
	"grad_norm": 0.16752338409423828,
	"learning_rate": 1e-05,
	"loss": 0.4619,
	"step": 15500
	},
	{
	"epoch": 36.0,
	"eval_explained_variance": 0.44863569736480713,
	"eval_kl_divergence": 0.43913933634757996,
	"eval_loss": 0.46735426783561707,
	"eval_mae": 0.11842861026525497,
	"eval_rmse": 0.15950414538383484,
	"eval_runtime": 64.5571,
	"eval_samples_per_second": 36.464,
	"eval_steps_per_second": 2.293,
	"learning_rate": 1e-05,
	"step": 15768
	},
	{
	"epoch": 36.529680365296805,
	"grad_norm": 0.15660376846790314,
	"learning_rate": 1e-05,
	"loss": 0.4612,
	"step": 16000
	},
	{
	"epoch": 37.0,
	"eval_explained_variance": 0.44943228363990784,
	"eval_kl_divergence": 0.36332887411117554,
	"eval_loss": 0.468018501996994,
	"eval_mae": 0.11912700533866882,
	"eval_rmse": 0.16002707183361053,
	"eval_runtime": 63.2971,
	"eval_samples_per_second": 37.19,
	"eval_steps_per_second": 2.338,
	"learning_rate": 1e-05,
	"step": 16206
	},
	{
	"epoch": 37.67123287671233,
	"grad_norm": 0.15865331888198853,
	"learning_rate": 1e-05,
	"loss": 0.4625,
	"step": 16500
	},
	{
	"epoch": 38.0,
	"eval_explained_variance": 0.45025742053985596,
	"eval_kl_divergence": 0.43029093742370605,
	"eval_loss": 0.46701580286026,
	"eval_mae": 0.1186341941356659,
	"eval_rmse": 0.15923398733139038,
	"eval_runtime": 63.0229,
	"eval_samples_per_second": 37.351,
	"eval_steps_per_second": 2.348,
	"learning_rate": 1e-05,
	"step": 16644
	},
	{
	"epoch": 38.81278538812786,
	"grad_norm": 0.2913804352283478,
	"learning_rate": 1e-05,
	"loss": 0.4608,
	"step": 17000
	},
	{
	"epoch": 39.0,
	"eval_explained_variance": 0.448851078748703,
	"eval_kl_divergence": 0.4562166929244995,
	"eval_loss": 0.4673251509666443,
	"eval_mae": 0.11870113760232925,
	"eval_rmse": 0.1596096307039261,
	"eval_runtime": 63.132,
	"eval_samples_per_second": 37.287,
	"eval_steps_per_second": 2.344,
	"learning_rate": 1e-05,
	"step": 17082
	},
	{
	"epoch": 39.954337899543376,
	"grad_norm": 0.1813182234764099,
	"learning_rate": 1e-05,
	"loss": 0.4614,
	"step": 17500
	},
	{
	"epoch": 40.0,
	"eval_explained_variance": 0.449774831533432,
	"eval_kl_divergence": 0.40653547644615173,
	"eval_loss": 0.4673212468624115,
	"eval_mae": 0.1188703179359436,
	"eval_rmse": 0.15939703583717346,
	"eval_runtime": 65.2215,
	"eval_samples_per_second": 36.092,
	"eval_steps_per_second": 2.269,
	"learning_rate": 1e-05,
	"step": 17520
	},
	{
	"epoch": 41.0,
	"eval_explained_variance": 0.4507579803466797,
	"eval_kl_divergence": 0.3335873782634735,
	"eval_loss": 0.4677547216415405,
	"eval_mae": 0.12059084326028824,
	"eval_rmse": 0.159872904419899,
	"eval_runtime": 65.9882,
	"eval_samples_per_second": 35.673,
	"eval_steps_per_second": 2.243,
	"learning_rate": 1e-05,
	"step": 17958
	},
	{
	"epoch": 41.0958904109589,
	"grad_norm": 0.1584874391555786,
	"learning_rate": 1e-05,
	"loss": 0.4608,
	"step": 18000
	},
	{
	"epoch": 42.0,
	"eval_explained_variance": 0.4486294686794281,
	"eval_kl_divergence": 0.5311685800552368,
	"eval_loss": 0.4671882390975952,
	"eval_mae": 0.1177595853805542,
	"eval_rmse": 0.15967120230197906,
	"eval_runtime": 65.4501,
	"eval_samples_per_second": 35.966,
	"eval_steps_per_second": 2.261,
	"learning_rate": 1e-05,
	"step": 18396
	},
	{
	"epoch": 42.23744292237443,
	"grad_norm": 0.17140232026576996,
	"learning_rate": 1e-05,
	"loss": 0.4615,
	"step": 18500
	},
	{
	"epoch": 43.0,
	"eval_explained_variance": 0.45157137513160706,
	"eval_kl_divergence": 0.3923657536506653,
	"eval_loss": 0.46716412901878357,
	"eval_mae": 0.1185157299041748,
	"eval_rmse": 0.1592295914888382,
	"eval_runtime": 64.3671,
	"eval_samples_per_second": 36.571,
	"eval_steps_per_second": 2.299,
	"learning_rate": 1e-05,
	"step": 18834
	},
	{
	"epoch": 43.37899543378995,
	"grad_norm": 0.12803754210472107,
	"learning_rate": 1e-05,
	"loss": 0.4601,
	"step": 19000
	},
	{
	"epoch": 44.0,
	"eval_explained_variance": 0.44912728667259216,
	"eval_kl_divergence": 0.4258858561515808,
	"eval_loss": 0.4678168296813965,
	"eval_mae": 0.11944716423749924,
	"eval_rmse": 0.16020986437797546,
	"eval_runtime": 65.6519,
	"eval_samples_per_second": 35.856,
	"eval_steps_per_second": 2.254,
	"learning_rate": 1e-05,
	"step": 19272
	},
	{
	"epoch": 44.52054794520548,
	"grad_norm": 0.12536858022212982,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.4602,
	"step": 19500
	},
	{
	"epoch": 45.0,
	"eval_explained_variance": 0.4489940404891968,
	"eval_kl_divergence": 0.5214298367500305,
	"eval_loss": 0.46699702739715576,
	"eval_mae": 0.11719372868537903,
	"eval_rmse": 0.15936775505542755,
	"eval_runtime": 64.8181,
	"eval_samples_per_second": 36.317,
	"eval_steps_per_second": 2.283,
	"learning_rate": 1.0000000000000002e-06,
	"step": 19710
	},
	{
	"epoch": 45.662100456621005,
	"grad_norm": 0.12503549456596375,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.4616,
	"step": 20000
	},
	{
	"epoch": 46.0,
	"eval_explained_variance": 0.45176592469215393,
	"eval_kl_divergence": 0.4174787700176239,
	"eval_loss": 0.46712958812713623,
	"eval_mae": 0.11880326271057129,
	"eval_rmse": 0.1593877524137497,
	"eval_runtime": 64.134,
	"eval_samples_per_second": 36.704,
	"eval_steps_per_second": 2.308,
	"learning_rate": 1.0000000000000002e-06,
	"step": 20148
	},
	{
	"epoch": 46.80365296803653,
	"grad_norm": 0.1746779829263687,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.4602,
	"step": 20500
	},
	{
	"epoch": 47.0,
	"eval_explained_variance": 0.4524901807308197,
	"eval_kl_divergence": 0.4446321427822113,
	"eval_loss": 0.4666382074356079,
	"eval_mae": 0.11884639412164688,
	"eval_rmse": 0.15886224806308746,
	"eval_runtime": 68.911,
	"eval_samples_per_second": 34.16,
	"eval_steps_per_second": 2.148,
	"learning_rate": 1.0000000000000002e-06,
	"step": 20586
	},
	{
	"epoch": 47.945205479452056,
	"grad_norm": 0.18253998458385468,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.4604,
	"step": 21000
	},
	{
	"epoch": 48.0,
	"eval_explained_variance": 0.44860827922821045,
	"eval_kl_divergence": 0.5755118727684021,
	"eval_loss": 0.46714723110198975,
	"eval_mae": 0.11802936345338821,
	"eval_rmse": 0.15972274541854858,
	"eval_runtime": 68.5695,
	"eval_samples_per_second": 34.33,
	"eval_steps_per_second": 2.158,
	"learning_rate": 1.0000000000000002e-06,
	"step": 21024
	},
	{
	"epoch": 49.0,
	"eval_explained_variance": 0.4494647979736328,
	"eval_kl_divergence": 0.4303589463233948,
	"eval_loss": 0.46758702397346497,
	"eval_mae": 0.11922705173492432,
	"eval_rmse": 0.15995512902736664,
	"eval_runtime": 68.4997,
	"eval_samples_per_second": 34.365,
	"eval_steps_per_second": 2.161,
	"learning_rate": 1.0000000000000002e-06,
	"step": 21462
	},
	{
	"epoch": 49.08675799086758,
	"grad_norm": 0.1836538463830948,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.4606,
	"step": 21500
	},
	{
	"epoch": 50.0,
	"eval_explained_variance": 0.4534037411212921,
	"eval_kl_divergence": 0.33374354243278503,
	"eval_loss": 0.46752068400382996,
	"eval_mae": 0.12040751427412033,
	"eval_rmse": 0.15945331752300262,
	"eval_runtime": 67.7842,
	"eval_samples_per_second": 34.728,
	"eval_steps_per_second": 2.183,
	"learning_rate": 1.0000000000000002e-06,
	"step": 21900
	},
	{
	"epoch": 50.22831050228311,
	"grad_norm": 0.18452928960323334,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.4598,
	"step": 22000
	},
	{
	"epoch": 51.0,
	"eval_explained_variance": 0.4523892402648926,
	"eval_kl_divergence": 0.395465224981308,
	"eval_loss": 0.46691644191741943,
	"eval_mae": 0.11809410899877548,
	"eval_rmse": 0.1590944528579712,
	"eval_runtime": 68.2629,
	"eval_samples_per_second": 34.484,
	"eval_steps_per_second": 2.168,
	"learning_rate": 1.0000000000000002e-06,
	"step": 22338
	},
	{
	"epoch": 51.36986301369863,
	"grad_norm": 0.1816985160112381,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.4602,
	"step": 22500
	},
	{
	"epoch": 52.0,
	"eval_explained_variance": 0.45300889015197754,
	"eval_kl_divergence": 0.4761090576648712,
	"eval_loss": 0.466439425945282,
	"eval_mae": 0.1174706444144249,
	"eval_rmse": 0.15875311195850372,
	"eval_runtime": 68.2396,
	"eval_samples_per_second": 34.496,
	"eval_steps_per_second": 2.169,
	"learning_rate": 1.0000000000000002e-06,
	"step": 22776
	},
	{
	"epoch": 52.51141552511415,
	"grad_norm": 0.17806819081306458,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.462,
	"step": 23000
	},
	{
	"epoch": 53.0,
	"eval_explained_variance": 0.45259252190589905,
	"eval_kl_divergence": 0.43274176120758057,
	"eval_loss": 0.4667709469795227,
	"eval_mae": 0.11889918893575668,
	"eval_rmse": 0.15901200473308563,
	"eval_runtime": 66.8799,
	"eval_samples_per_second": 35.197,
	"eval_steps_per_second": 2.213,
	"learning_rate": 1.0000000000000002e-06,
	"step": 23214
	},
	{
	"epoch": 53.65296803652968,
	"grad_norm": 0.18054644763469696,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.4604,
	"step": 23500
	},
	{
	"epoch": 54.0,
	"eval_explained_variance": 0.4532507658004761,
	"eval_kl_divergence": 0.3724806606769562,
	"eval_loss": 0.46701404452323914,
	"eval_mae": 0.11868719011545181,
	"eval_rmse": 0.15923155844211578,
	"eval_runtime": 73.556,
	"eval_samples_per_second": 32.003,
	"eval_steps_per_second": 2.012,
	"learning_rate": 1.0000000000000002e-06,
	"step": 23652
	},
	{
	"epoch": 54.794520547945204,
	"grad_norm": 0.26471829414367676,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.461,
	"step": 24000
	},
	{
	"epoch": 55.0,
	"eval_explained_variance": 0.45088374614715576,
	"eval_kl_divergence": 0.38409897685050964,
	"eval_loss": 0.467383474111557,
	"eval_mae": 0.11990005522966385,
	"eval_rmse": 0.1595049947500229,
	"eval_runtime": 70.451,
	"eval_samples_per_second": 33.413,
	"eval_steps_per_second": 2.101,
	"learning_rate": 1.0000000000000002e-06,
	"step": 24090
	},
	{
	"epoch": 55.93607305936073,
	"grad_norm": 0.2783886194229126,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.4599,
	"step": 24500
	},
	{
	"epoch": 56.0,
	"eval_explained_variance": 0.45115411281585693,
	"eval_kl_divergence": 0.3821828067302704,
	"eval_loss": 0.46739572286605835,
	"eval_mae": 0.11897724121809006,
	"eval_rmse": 0.15964223444461823,
	"eval_runtime": 69.6578,
	"eval_samples_per_second": 33.794,
	"eval_steps_per_second": 2.125,
	"learning_rate": 1.0000000000000002e-06,
	"step": 24528
	},
	{
	"epoch": 57.0,
	"eval_explained_variance": 0.4505263864994049,
	"eval_kl_divergence": 0.4674541652202606,
	"eval_loss": 0.46702033281326294,
	"eval_mae": 0.1185864806175232,
	"eval_rmse": 0.15932416915893555,
	"eval_runtime": 67.4689,
	"eval_samples_per_second": 34.89,
	"eval_steps_per_second": 2.194,
	"learning_rate": 1.0000000000000002e-06,
	"step": 24966
	},
	{
	"epoch": 57.077625570776256,
	"grad_norm": 0.16562320291996002,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.4594,
	"step": 25000
	},
	{
	"epoch": 58.0,
	"eval_explained_variance": 0.4521506726741791,
	"eval_kl_divergence": 0.37376847863197327,
	"eval_loss": 0.46735846996307373,
	"eval_mae": 0.11891353130340576,
	"eval_rmse": 0.15956538915634155,
	"eval_runtime": 68.6492,
	"eval_samples_per_second": 34.29,
	"eval_steps_per_second": 2.156,
	"learning_rate": 1.0000000000000002e-06,
	"step": 25404
	},
	{
	"epoch": 58.21917808219178,
	"grad_norm": 0.21171259880065918,
	"learning_rate": 1.0000000000000002e-07,
	"loss": 0.4613,
	"step": 25500
	},
	{
	"epoch": 59.0,
	"eval_explained_variance": 0.45357391238212585,
	"eval_kl_divergence": 0.4204346239566803,
	"eval_loss": 0.46666717529296875,
	"eval_mae": 0.11845538765192032,
	"eval_rmse": 0.1589372605085373,
	"eval_runtime": 69.2012,
	"eval_samples_per_second": 34.017,
	"eval_steps_per_second": 2.139,
	"learning_rate": 1.0000000000000002e-07,
	"step": 25842
	},
	{
	"epoch": 59.36073059360731,
	"grad_norm": 0.1960112601518631,
	"learning_rate": 1.0000000000000002e-07,
	"loss": 0.4607,
	"step": 26000
	},
	{
	"epoch": 60.0,
	"eval_explained_variance": 0.4513193368911743,
	"eval_kl_divergence": 0.45320600271224976,
	"eval_loss": 0.46685320138931274,
	"eval_mae": 0.11779770255088806,
	"eval_rmse": 0.15917657315731049,
	"eval_runtime": 71.4331,
	"eval_samples_per_second": 32.954,
	"eval_steps_per_second": 2.072,
	"learning_rate": 1.0000000000000002e-07,
	"step": 26280
	},
	{
	"epoch": 60.50228310502283,
	"grad_norm": 0.2178792506456375,
	"learning_rate": 1.0000000000000002e-07,
	"loss": 0.4613,
	"step": 26500
	},
	{
	"epoch": 61.0,
	"eval_explained_variance": 0.45110437273979187,
	"eval_kl_divergence": 0.40322577953338623,
	"eval_loss": 0.46734780073165894,
	"eval_mae": 0.11893540620803833,
	"eval_rmse": 0.1595635712146759,
	"eval_runtime": 69.3534,
	"eval_samples_per_second": 33.942,
	"eval_steps_per_second": 2.134,
	"learning_rate": 1.0000000000000002e-07,
	"step": 26718
	},
	{
	"epoch": 61.64383561643836,
	"grad_norm": 0.16740958392620087,
	"learning_rate": 1.0000000000000002e-07,
	"loss": 0.4598,
	"step": 27000
	},
	{
	"epoch": 62.0,
	"eval_explained_variance": 0.4526772201061249,
	"eval_kl_divergence": 0.3406714200973511,
	"eval_loss": 0.4673011302947998,
	"eval_mae": 0.11888447403907776,
	"eval_rmse": 0.1594574898481369,
	"eval_runtime": 70.4024,
	"eval_samples_per_second": 33.436,
	"eval_steps_per_second": 2.102,
	"learning_rate": 1.0000000000000002e-07,
	"step": 27156
	},
	{
	"epoch": 62.0,
	"learning_rate": 1.0000000000000002e-07,
	"step": 27156,
	"total_flos": 6.42634409963284e+19,
	"train_loss": 0.466335079458891,
	"train_runtime": 17194.6751,
	"train_samples_per_second": 61.092,
	"train_steps_per_second": 3.821
	}
	],
	"logging_steps": 500,
	"max_steps": 65700,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 150,
	"save_steps": 500,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 10,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 6.42634409963284e+19,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}