alpaca-lora-tinyllama1.1b / checkpoint-1000 /trainer_state.json

Add output of finetuning tinyllama

4a2fa16 verified 3 months ago

19.2 kB

	{
	"best_metric": 1.000998854637146,
	"best_model_checkpoint": "./lora-alpaca3/checkpoint-1000",
	"epoch": 2.572347266881029,
	"eval_steps": 200,
	"global_step": 1000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02572347266881029,
	"grad_norm": 0.5646638870239258,
	"learning_rate": 2.9999999999999997e-05,
	"loss": 1.9009,
	"step": 10
	},
	{
	"epoch": 0.05144694533762058,
	"grad_norm": 0.5377612709999084,
	"learning_rate": 5.9999999999999995e-05,
	"loss": 1.8355,
	"step": 20
	},
	{
	"epoch": 0.07717041800643087,
	"grad_norm": 0.5958595871925354,
	"learning_rate": 8.999999999999999e-05,
	"loss": 1.6639,
	"step": 30
	},
	{
	"epoch": 0.10289389067524116,
	"grad_norm": 0.5721263885498047,
	"learning_rate": 0.00011999999999999999,
	"loss": 1.3994,
	"step": 40
	},
	{
	"epoch": 0.12861736334405144,
	"grad_norm": 0.2665337026119232,
	"learning_rate": 0.00015,
	"loss": 1.1767,
	"step": 50
	},
	{
	"epoch": 0.15434083601286175,
	"grad_norm": 0.12332847714424133,
	"learning_rate": 0.00017999999999999998,
	"loss": 1.1413,
	"step": 60
	},
	{
	"epoch": 0.18006430868167203,
	"grad_norm": 0.12157242000102997,
	"learning_rate": 0.00020999999999999998,
	"loss": 1.1103,
	"step": 70
	},
	{
	"epoch": 0.2057877813504823,
	"grad_norm": 0.12799611687660217,
	"learning_rate": 0.00023999999999999998,
	"loss": 1.1003,
	"step": 80
	},
	{
	"epoch": 0.2315112540192926,
	"grad_norm": 0.12139850109815598,
	"learning_rate": 0.00027,
	"loss": 1.084,
	"step": 90
	},
	{
	"epoch": 0.2572347266881029,
	"grad_norm": 0.144248366355896,
	"learning_rate": 0.0003,
	"loss": 1.0722,
	"step": 100
	},
	{
	"epoch": 0.2829581993569132,
	"grad_norm": 0.15326175093650818,
	"learning_rate": 0.00029718045112781953,
	"loss": 1.0731,
	"step": 110
	},
	{
	"epoch": 0.3086816720257235,
	"grad_norm": 0.12561754882335663,
	"learning_rate": 0.00029436090225563904,
	"loss": 1.0537,
	"step": 120
	},
	{
	"epoch": 0.33440514469453375,
	"grad_norm": 0.15570670366287231,
	"learning_rate": 0.0002915413533834586,
	"loss": 1.049,
	"step": 130
	},
	{
	"epoch": 0.36012861736334406,
	"grad_norm": 0.14343878626823425,
	"learning_rate": 0.00028872180451127816,
	"loss": 1.0273,
	"step": 140
	},
	{
	"epoch": 0.3858520900321543,
	"grad_norm": 0.1315772831439972,
	"learning_rate": 0.0002859022556390977,
	"loss": 1.0529,
	"step": 150
	},
	{
	"epoch": 0.4115755627009646,
	"grad_norm": 0.13874055445194244,
	"learning_rate": 0.0002830827067669173,
	"loss": 1.044,
	"step": 160
	},
	{
	"epoch": 0.43729903536977494,
	"grad_norm": 0.1271531730890274,
	"learning_rate": 0.00028026315789473683,
	"loss": 1.0388,
	"step": 170
	},
	{
	"epoch": 0.4630225080385852,
	"grad_norm": 0.12684497237205505,
	"learning_rate": 0.0002774436090225564,
	"loss": 1.0385,
	"step": 180
	},
	{
	"epoch": 0.4887459807073955,
	"grad_norm": 0.11675913631916046,
	"learning_rate": 0.0002746240601503759,
	"loss": 1.0349,
	"step": 190
	},
	{
	"epoch": 0.5144694533762058,
	"grad_norm": 0.15151233971118927,
	"learning_rate": 0.00027180451127819546,
	"loss": 1.0282,
	"step": 200
	},
	{
	"epoch": 0.5144694533762058,
	"eval_loss": 1.0400722026824951,
	"eval_runtime": 55.5366,
	"eval_samples_per_second": 36.012,
	"eval_steps_per_second": 4.502,
	"step": 200
	},
	{
	"epoch": 0.5401929260450161,
	"grad_norm": 0.1420961171388626,
	"learning_rate": 0.000268984962406015,
	"loss": 1.0297,
	"step": 210
	},
	{
	"epoch": 0.5659163987138264,
	"grad_norm": 0.13161741197109222,
	"learning_rate": 0.0002661654135338346,
	"loss": 1.0276,
	"step": 220
	},
	{
	"epoch": 0.5916398713826366,
	"grad_norm": 0.13450871407985687,
	"learning_rate": 0.00026334586466165413,
	"loss": 1.0285,
	"step": 230
	},
	{
	"epoch": 0.617363344051447,
	"grad_norm": 0.13193918764591217,
	"learning_rate": 0.0002605263157894737,
	"loss": 1.0309,
	"step": 240
	},
	{
	"epoch": 0.6430868167202572,
	"grad_norm": 0.1393500566482544,
	"learning_rate": 0.0002577067669172932,
	"loss": 1.0315,
	"step": 250
	},
	{
	"epoch": 0.6688102893890675,
	"grad_norm": 0.11902929842472076,
	"learning_rate": 0.00025488721804511276,
	"loss": 1.0347,
	"step": 260
	},
	{
	"epoch": 0.6945337620578779,
	"grad_norm": 0.1258976310491562,
	"learning_rate": 0.0002520676691729323,
	"loss": 1.0273,
	"step": 270
	},
	{
	"epoch": 0.7202572347266881,
	"grad_norm": 0.12598267197608948,
	"learning_rate": 0.0002492481203007519,
	"loss": 1.0128,
	"step": 280
	},
	{
	"epoch": 0.7459807073954984,
	"grad_norm": 0.122463159263134,
	"learning_rate": 0.0002464285714285714,
	"loss": 1.0251,
	"step": 290
	},
	{
	"epoch": 0.7717041800643086,
	"grad_norm": 0.1293506771326065,
	"learning_rate": 0.00024360902255639094,
	"loss": 1.0317,
	"step": 300
	},
	{
	"epoch": 0.797427652733119,
	"grad_norm": 0.13788191974163055,
	"learning_rate": 0.00024078947368421052,
	"loss": 1.029,
	"step": 310
	},
	{
	"epoch": 0.8231511254019293,
	"grad_norm": 0.1445332169532776,
	"learning_rate": 0.00023796992481203005,
	"loss": 1.0173,
	"step": 320
	},
	{
	"epoch": 0.8488745980707395,
	"grad_norm": 0.11408714205026627,
	"learning_rate": 0.00023515037593984961,
	"loss": 1.0109,
	"step": 330
	},
	{
	"epoch": 0.8745980707395499,
	"grad_norm": 0.11767855286598206,
	"learning_rate": 0.00023233082706766915,
	"loss": 1.0116,
	"step": 340
	},
	{
	"epoch": 0.9003215434083601,
	"grad_norm": 0.12555481493473053,
	"learning_rate": 0.0002295112781954887,
	"loss": 1.0144,
	"step": 350
	},
	{
	"epoch": 0.9260450160771704,
	"grad_norm": 0.12403016537427902,
	"learning_rate": 0.00022669172932330824,
	"loss": 1.0299,
	"step": 360
	},
	{
	"epoch": 0.9517684887459807,
	"grad_norm": 0.12968535721302032,
	"learning_rate": 0.0002238721804511278,
	"loss": 1.0081,
	"step": 370
	},
	{
	"epoch": 0.977491961414791,
	"grad_norm": 0.12369370460510254,
	"learning_rate": 0.00022105263157894733,
	"loss": 1.0065,
	"step": 380
	},
	{
	"epoch": 1.0032154340836013,
	"grad_norm": 0.12212081998586655,
	"learning_rate": 0.0002182330827067669,
	"loss": 1.0448,
	"step": 390
	},
	{
	"epoch": 1.0289389067524115,
	"grad_norm": 0.1301109939813614,
	"learning_rate": 0.00021541353383458647,
	"loss": 1.0052,
	"step": 400
	},
	{
	"epoch": 1.0289389067524115,
	"eval_loss": 1.0189071893692017,
	"eval_runtime": 55.4593,
	"eval_samples_per_second": 36.062,
	"eval_steps_per_second": 4.508,
	"step": 400
	},
	{
	"epoch": 1.0546623794212218,
	"grad_norm": 0.13505908846855164,
	"learning_rate": 0.000212593984962406,
	"loss": 1.0009,
	"step": 410
	},
	{
	"epoch": 1.0803858520900322,
	"grad_norm": 0.12307268381118774,
	"learning_rate": 0.00020977443609022556,
	"loss": 1.0039,
	"step": 420
	},
	{
	"epoch": 1.1061093247588425,
	"grad_norm": 0.11501840502023697,
	"learning_rate": 0.0002069548872180451,
	"loss": 0.9988,
	"step": 430
	},
	{
	"epoch": 1.1318327974276527,
	"grad_norm": 0.12922251224517822,
	"learning_rate": 0.00020413533834586463,
	"loss": 0.9938,
	"step": 440
	},
	{
	"epoch": 1.157556270096463,
	"grad_norm": 0.12304320186376572,
	"learning_rate": 0.0002013157894736842,
	"loss": 1.0223,
	"step": 450
	},
	{
	"epoch": 1.1832797427652733,
	"grad_norm": 0.11323860287666321,
	"learning_rate": 0.00019849624060150372,
	"loss": 0.9957,
	"step": 460
	},
	{
	"epoch": 1.2090032154340835,
	"grad_norm": 0.1335834562778473,
	"learning_rate": 0.00019567669172932328,
	"loss": 1.0042,
	"step": 470
	},
	{
	"epoch": 1.234726688102894,
	"grad_norm": 0.12371603399515152,
	"learning_rate": 0.00019285714285714286,
	"loss": 1.0056,
	"step": 480
	},
	{
	"epoch": 1.2604501607717042,
	"grad_norm": 0.12318002432584763,
	"learning_rate": 0.0001900375939849624,
	"loss": 1.0122,
	"step": 490
	},
	{
	"epoch": 1.2861736334405145,
	"grad_norm": 0.13187570869922638,
	"learning_rate": 0.00018721804511278195,
	"loss": 0.9971,
	"step": 500
	},
	{
	"epoch": 1.3118971061093248,
	"grad_norm": 0.11861589550971985,
	"learning_rate": 0.00018439849624060149,
	"loss": 0.9926,
	"step": 510
	},
	{
	"epoch": 1.337620578778135,
	"grad_norm": 0.11287492513656616,
	"learning_rate": 0.00018157894736842105,
	"loss": 1.016,
	"step": 520
	},
	{
	"epoch": 1.3633440514469453,
	"grad_norm": 0.1384376585483551,
	"learning_rate": 0.00017875939849624058,
	"loss": 1.0059,
	"step": 530
	},
	{
	"epoch": 1.3890675241157555,
	"grad_norm": 0.12147587537765503,
	"learning_rate": 0.00017593984962406014,
	"loss": 1.0213,
	"step": 540
	},
	{
	"epoch": 1.414790996784566,
	"grad_norm": 0.13031207025051117,
	"learning_rate": 0.00017312030075187967,
	"loss": 1.005,
	"step": 550
	},
	{
	"epoch": 1.4405144694533762,
	"grad_norm": 0.13779744505882263,
	"learning_rate": 0.00017030075187969925,
	"loss": 1.0077,
	"step": 560
	},
	{
	"epoch": 1.4662379421221865,
	"grad_norm": 0.13196057081222534,
	"learning_rate": 0.00016748120300751879,
	"loss": 0.9944,
	"step": 570
	},
	{
	"epoch": 1.4919614147909968,
	"grad_norm": 0.117030069231987,
	"learning_rate": 0.00016466165413533835,
	"loss": 1.0082,
	"step": 580
	},
	{
	"epoch": 1.517684887459807,
	"grad_norm": 0.1274162381887436,
	"learning_rate": 0.00016184210526315788,
	"loss": 1.0102,
	"step": 590
	},
	{
	"epoch": 1.5434083601286175,
	"grad_norm": 0.13315673172473907,
	"learning_rate": 0.00015902255639097744,
	"loss": 0.985,
	"step": 600
	},
	{
	"epoch": 1.5434083601286175,
	"eval_loss": 1.0096462965011597,
	"eval_runtime": 55.507,
	"eval_samples_per_second": 36.031,
	"eval_steps_per_second": 4.504,
	"step": 600
	},
	{
	"epoch": 1.5691318327974275,
	"grad_norm": 0.12220187485218048,
	"learning_rate": 0.00015620300751879697,
	"loss": 0.9912,
	"step": 610
	},
	{
	"epoch": 1.594855305466238,
	"grad_norm": 0.12432006746530533,
	"learning_rate": 0.00015338345864661653,
	"loss": 0.9963,
	"step": 620
	},
	{
	"epoch": 1.6205787781350482,
	"grad_norm": 0.12138667702674866,
	"learning_rate": 0.00015056390977443606,
	"loss": 1.0014,
	"step": 630
	},
	{
	"epoch": 1.6463022508038585,
	"grad_norm": 0.13801203668117523,
	"learning_rate": 0.00014774436090225562,
	"loss": 0.9922,
	"step": 640
	},
	{
	"epoch": 1.6720257234726688,
	"grad_norm": 0.13330678641796112,
	"learning_rate": 0.00014492481203007518,
	"loss": 0.9897,
	"step": 650
	},
	{
	"epoch": 1.697749196141479,
	"grad_norm": 0.12127404659986496,
	"learning_rate": 0.0001421052631578947,
	"loss": 0.9898,
	"step": 660
	},
	{
	"epoch": 1.7234726688102895,
	"grad_norm": 0.13159097731113434,
	"learning_rate": 0.00013928571428571427,
	"loss": 0.9943,
	"step": 670
	},
	{
	"epoch": 1.7491961414790995,
	"grad_norm": 0.13246209919452667,
	"learning_rate": 0.00013646616541353383,
	"loss": 1.0048,
	"step": 680
	},
	{
	"epoch": 1.77491961414791,
	"grad_norm": 0.11693169921636581,
	"learning_rate": 0.00013364661654135336,
	"loss": 0.9996,
	"step": 690
	},
	{
	"epoch": 1.8006430868167203,
	"grad_norm": 0.13176512718200684,
	"learning_rate": 0.00013082706766917292,
	"loss": 0.9923,
	"step": 700
	},
	{
	"epoch": 1.8263665594855305,
	"grad_norm": 0.1224486380815506,
	"learning_rate": 0.00012800751879699248,
	"loss": 0.9799,
	"step": 710
	},
	{
	"epoch": 1.852090032154341,
	"grad_norm": 0.12146233022212982,
	"learning_rate": 0.000125187969924812,
	"loss": 0.9874,
	"step": 720
	},
	{
	"epoch": 1.877813504823151,
	"grad_norm": 0.12821047008037567,
	"learning_rate": 0.00012236842105263157,
	"loss": 0.9982,
	"step": 730
	},
	{
	"epoch": 1.9035369774919615,
	"grad_norm": 0.12273906171321869,
	"learning_rate": 0.00011954887218045111,
	"loss": 0.9946,
	"step": 740
	},
	{
	"epoch": 1.9292604501607717,
	"grad_norm": 0.1282244175672531,
	"learning_rate": 0.00011672932330827067,
	"loss": 0.9976,
	"step": 750
	},
	{
	"epoch": 1.954983922829582,
	"grad_norm": 0.13315148651599884,
	"learning_rate": 0.00011390977443609022,
	"loss": 1.0012,
	"step": 760
	},
	{
	"epoch": 1.9807073954983923,
	"grad_norm": 0.12510079145431519,
	"learning_rate": 0.00011109022556390976,
	"loss": 0.9865,
	"step": 770
	},
	{
	"epoch": 2.0064308681672025,
	"grad_norm": 0.11581259220838547,
	"learning_rate": 0.00010827067669172931,
	"loss": 1.0306,
	"step": 780
	},
	{
	"epoch": 2.032154340836013,
	"grad_norm": 0.1278076171875,
	"learning_rate": 0.00010545112781954887,
	"loss": 0.9984,
	"step": 790
	},
	{
	"epoch": 2.057877813504823,
	"grad_norm": 0.12879391014575958,
	"learning_rate": 0.00010263157894736841,
	"loss": 0.9729,
	"step": 800
	},
	{
	"epoch": 2.057877813504823,
	"eval_loss": 1.0042115449905396,
	"eval_runtime": 55.4463,
	"eval_samples_per_second": 36.071,
	"eval_steps_per_second": 4.509,
	"step": 800
	},
	{
	"epoch": 2.0836012861736335,
	"grad_norm": 0.1267639547586441,
	"learning_rate": 9.981203007518796e-05,
	"loss": 0.9899,
	"step": 810
	},
	{
	"epoch": 2.1093247588424435,
	"grad_norm": 0.13013407588005066,
	"learning_rate": 9.69924812030075e-05,
	"loss": 0.9913,
	"step": 820
	},
	{
	"epoch": 2.135048231511254,
	"grad_norm": 0.12404422461986542,
	"learning_rate": 9.417293233082706e-05,
	"loss": 0.9923,
	"step": 830
	},
	{
	"epoch": 2.1607717041800645,
	"grad_norm": 0.12091611325740814,
	"learning_rate": 9.135338345864661e-05,
	"loss": 0.9905,
	"step": 840
	},
	{
	"epoch": 2.1864951768488745,
	"grad_norm": 0.13067036867141724,
	"learning_rate": 8.853383458646615e-05,
	"loss": 0.9944,
	"step": 850
	},
	{
	"epoch": 2.212218649517685,
	"grad_norm": 0.13169625401496887,
	"learning_rate": 8.57142857142857e-05,
	"loss": 0.9848,
	"step": 860
	},
	{
	"epoch": 2.237942122186495,
	"grad_norm": 0.13107703626155853,
	"learning_rate": 8.289473684210526e-05,
	"loss": 0.9712,
	"step": 870
	},
	{
	"epoch": 2.2636655948553055,
	"grad_norm": 0.1307050734758377,
	"learning_rate": 8.00751879699248e-05,
	"loss": 0.9855,
	"step": 880
	},
	{
	"epoch": 2.289389067524116,
	"grad_norm": 0.13297782838344574,
	"learning_rate": 7.725563909774435e-05,
	"loss": 0.9918,
	"step": 890
	},
	{
	"epoch": 2.315112540192926,
	"grad_norm": 0.1355738788843155,
	"learning_rate": 7.44360902255639e-05,
	"loss": 0.9845,
	"step": 900
	},
	{
	"epoch": 2.3408360128617365,
	"grad_norm": 0.12372130155563354,
	"learning_rate": 7.161654135338345e-05,
	"loss": 0.9887,
	"step": 910
	},
	{
	"epoch": 2.3665594855305465,
	"grad_norm": 0.1307709813117981,
	"learning_rate": 6.8796992481203e-05,
	"loss": 0.9886,
	"step": 920
	},
	{
	"epoch": 2.392282958199357,
	"grad_norm": 0.12701715528964996,
	"learning_rate": 6.597744360902256e-05,
	"loss": 0.9885,
	"step": 930
	},
	{
	"epoch": 2.418006430868167,
	"grad_norm": 0.13114945590496063,
	"learning_rate": 6.315789473684209e-05,
	"loss": 0.9788,
	"step": 940
	},
	{
	"epoch": 2.4437299035369775,
	"grad_norm": 0.12744566798210144,
	"learning_rate": 6.033834586466165e-05,
	"loss": 0.986,
	"step": 950
	},
	{
	"epoch": 2.469453376205788,
	"grad_norm": 0.13428843021392822,
	"learning_rate": 5.7518796992481194e-05,
	"loss": 0.974,
	"step": 960
	},
	{
	"epoch": 2.495176848874598,
	"grad_norm": 0.13112470507621765,
	"learning_rate": 5.4699248120300746e-05,
	"loss": 0.9818,
	"step": 970
	},
	{
	"epoch": 2.5209003215434085,
	"grad_norm": 0.1363256722688675,
	"learning_rate": 5.187969924812029e-05,
	"loss": 0.9909,
	"step": 980
	},
	{
	"epoch": 2.5466237942122185,
	"grad_norm": 0.13036535680294037,
	"learning_rate": 4.9060150375939844e-05,
	"loss": 0.9921,
	"step": 990
	},
	{
	"epoch": 2.572347266881029,
	"grad_norm": 0.13345099985599518,
	"learning_rate": 4.624060150375939e-05,
	"loss": 0.9722,
	"step": 1000
	},
	{
	"epoch": 2.572347266881029,
	"eval_loss": 1.000998854637146,
	"eval_runtime": 55.4742,
	"eval_samples_per_second": 36.053,
	"eval_steps_per_second": 4.507,
	"step": 1000
	}
	],
	"logging_steps": 10,
	"max_steps": 1164,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 200,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.9627225935210086e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}