Whisper-small-Ar-MDD / trainer_state.json

End of training

08eb3e7 verified 12 months ago

37.7 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 10.0,
	"eval_steps": 500,
	"global_step": 5460,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.05,
	"grad_norm": 0.4075450599193573,
	"learning_rate": 0.0005,
	"loss": 0.0571,
	"step": 25
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.5959680676460266,
	"learning_rate": 0.001,
	"loss": 0.0853,
	"step": 50
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.1371592283248901,
	"learning_rate": 0.0009955637707948243,
	"loss": 0.0983,
	"step": 75
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.7857468128204346,
	"learning_rate": 0.0009911275415896488,
	"loss": 0.0689,
	"step": 100
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.947630763053894,
	"learning_rate": 0.0009865064695009243,
	"loss": 0.0834,
	"step": 125
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.750166654586792,
	"learning_rate": 0.0009818853974121996,
	"loss": 0.0655,
	"step": 150
	},
	{
	"epoch": 0.32,
	"grad_norm": 3.860727548599243,
	"learning_rate": 0.000977264325323475,
	"loss": 0.0554,
	"step": 175
	},
	{
	"epoch": 0.37,
	"grad_norm": 0.3753944933414459,
	"learning_rate": 0.0009726432532347505,
	"loss": 0.0785,
	"step": 200
	},
	{
	"epoch": 0.41,
	"grad_norm": 0.4372863471508026,
	"learning_rate": 0.0009680221811460259,
	"loss": 0.063,
	"step": 225
	},
	{
	"epoch": 0.46,
	"grad_norm": 0.31646546721458435,
	"learning_rate": 0.0009634011090573013,
	"loss": 0.0487,
	"step": 250
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.8565055131912231,
	"learning_rate": 0.0009587800369685768,
	"loss": 0.0586,
	"step": 275
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.5980587601661682,
	"learning_rate": 0.0009541589648798521,
	"loss": 0.0683,
	"step": 300
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.2764056324958801,
	"learning_rate": 0.0009495378927911276,
	"loss": 0.0697,
	"step": 325
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.5360766649246216,
	"learning_rate": 0.0009449168207024029,
	"loss": 0.0639,
	"step": 350
	},
	{
	"epoch": 0.69,
	"grad_norm": 0.38272273540496826,
	"learning_rate": 0.0009402957486136784,
	"loss": 0.0816,
	"step": 375
	},
	{
	"epoch": 0.73,
	"grad_norm": 0.362632155418396,
	"learning_rate": 0.0009356746765249538,
	"loss": 0.0734,
	"step": 400
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.5462536811828613,
	"learning_rate": 0.0009310536044362292,
	"loss": 0.2255,
	"step": 425
	},
	{
	"epoch": 0.82,
	"grad_norm": 0.6713312268257141,
	"learning_rate": 0.0009264325323475047,
	"loss": 0.1296,
	"step": 450
	},
	{
	"epoch": 0.87,
	"grad_norm": 0.8870647549629211,
	"learning_rate": 0.0009219963031423291,
	"loss": 0.0904,
	"step": 475
	},
	{
	"epoch": 0.92,
	"grad_norm": 0.4918694496154785,
	"learning_rate": 0.0009173752310536044,
	"loss": 0.0689,
	"step": 500
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.3674885630607605,
	"learning_rate": 0.0009127541589648799,
	"loss": 0.0726,
	"step": 525
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.2210056632757187,
	"eval_runtime": 173.4286,
	"eval_samples_per_second": 4.688,
	"eval_steps_per_second": 0.784,
	"step": 546
	},
	{
	"epoch": 1.01,
	"grad_norm": 0.8691617250442505,
	"learning_rate": 0.0009081330868761552,
	"loss": 0.0421,
	"step": 550
	},
	{
	"epoch": 1.05,
	"grad_norm": 0.8861550688743591,
	"learning_rate": 0.0009035120147874307,
	"loss": 0.058,
	"step": 575
	},
	{
	"epoch": 1.1,
	"grad_norm": 0.10453300923109055,
	"learning_rate": 0.000898890942698706,
	"loss": 0.0391,
	"step": 600
	},
	{
	"epoch": 1.14,
	"grad_norm": 0.11498710513114929,
	"learning_rate": 0.0008942698706099815,
	"loss": 0.0413,
	"step": 625
	},
	{
	"epoch": 1.19,
	"grad_norm": 0.3542003333568573,
	"learning_rate": 0.0008896487985212569,
	"loss": 0.0764,
	"step": 650
	},
	{
	"epoch": 1.24,
	"grad_norm": 0.5665566921234131,
	"learning_rate": 0.0008850277264325323,
	"loss": 0.0464,
	"step": 675
	},
	{
	"epoch": 1.28,
	"grad_norm": 0.37183037400245667,
	"learning_rate": 0.0008804066543438077,
	"loss": 0.0557,
	"step": 700
	},
	{
	"epoch": 1.33,
	"grad_norm": 2.33689546585083,
	"learning_rate": 0.0008757855822550833,
	"loss": 0.0723,
	"step": 725
	},
	{
	"epoch": 1.37,
	"grad_norm": 0.47746214270591736,
	"learning_rate": 0.0008711645101663586,
	"loss": 0.0613,
	"step": 750
	},
	{
	"epoch": 1.42,
	"grad_norm": 0.5573539137840271,
	"learning_rate": 0.0008665434380776341,
	"loss": 0.0581,
	"step": 775
	},
	{
	"epoch": 1.47,
	"grad_norm": 0.5228638648986816,
	"learning_rate": 0.0008619223659889095,
	"loss": 0.0438,
	"step": 800
	},
	{
	"epoch": 1.51,
	"grad_norm": 1.0585103034973145,
	"learning_rate": 0.0008573012939001849,
	"loss": 0.0357,
	"step": 825
	},
	{
	"epoch": 1.56,
	"grad_norm": 0.13868175446987152,
	"learning_rate": 0.0008526802218114603,
	"loss": 0.0374,
	"step": 850
	},
	{
	"epoch": 1.6,
	"grad_norm": 0.43853959441185,
	"learning_rate": 0.0008480591497227357,
	"loss": 0.0482,
	"step": 875
	},
	{
	"epoch": 1.65,
	"grad_norm": 0.47208574414253235,
	"learning_rate": 0.0008434380776340112,
	"loss": 0.0551,
	"step": 900
	},
	{
	"epoch": 1.69,
	"grad_norm": 0.2631681561470032,
	"learning_rate": 0.0008388170055452865,
	"loss": 0.0717,
	"step": 925
	},
	{
	"epoch": 1.74,
	"grad_norm": 0.23163950443267822,
	"learning_rate": 0.000834195933456562,
	"loss": 0.0415,
	"step": 950
	},
	{
	"epoch": 1.79,
	"grad_norm": 0.45487725734710693,
	"learning_rate": 0.0008295748613678373,
	"loss": 0.0392,
	"step": 975
	},
	{
	"epoch": 1.83,
	"grad_norm": 0.40454888343811035,
	"learning_rate": 0.0008249537892791128,
	"loss": 0.0342,
	"step": 1000
	},
	{
	"epoch": 1.88,
	"grad_norm": 0.10719649493694305,
	"learning_rate": 0.0008203327171903881,
	"loss": 0.0499,
	"step": 1025
	},
	{
	"epoch": 1.92,
	"grad_norm": 0.5795795917510986,
	"learning_rate": 0.0008157116451016636,
	"loss": 0.0553,
	"step": 1050
	},
	{
	"epoch": 1.97,
	"grad_norm": 0.2069532871246338,
	"learning_rate": 0.000811090573012939,
	"loss": 0.0419,
	"step": 1075
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.21386997401714325,
	"eval_runtime": 174.0952,
	"eval_samples_per_second": 4.67,
	"eval_steps_per_second": 0.781,
	"step": 1092
	},
	{
	"epoch": 2.01,
	"grad_norm": 0.170976459980011,
	"learning_rate": 0.0008064695009242144,
	"loss": 0.0373,
	"step": 1100
	},
	{
	"epoch": 2.06,
	"grad_norm": 0.10965342819690704,
	"learning_rate": 0.0008018484288354898,
	"loss": 0.0286,
	"step": 1125
	},
	{
	"epoch": 2.11,
	"grad_norm": 0.02158469147980213,
	"learning_rate": 0.0007972273567467652,
	"loss": 0.05,
	"step": 1150
	},
	{
	"epoch": 2.15,
	"grad_norm": 1.0225136280059814,
	"learning_rate": 0.0007926062846580406,
	"loss": 0.0423,
	"step": 1175
	},
	{
	"epoch": 2.2,
	"grad_norm": 0.09866318106651306,
	"learning_rate": 0.0007879852125693162,
	"loss": 0.0376,
	"step": 1200
	},
	{
	"epoch": 2.24,
	"grad_norm": 0.23199380934238434,
	"learning_rate": 0.0007833641404805915,
	"loss": 0.0293,
	"step": 1225
	},
	{
	"epoch": 2.29,
	"grad_norm": 0.05752483755350113,
	"learning_rate": 0.000778743068391867,
	"loss": 0.0381,
	"step": 1250
	},
	{
	"epoch": 2.34,
	"grad_norm": 0.13506996631622314,
	"learning_rate": 0.0007741219963031424,
	"loss": 0.0394,
	"step": 1275
	},
	{
	"epoch": 2.38,
	"grad_norm": 1.1013309955596924,
	"learning_rate": 0.0007695009242144178,
	"loss": 0.0394,
	"step": 1300
	},
	{
	"epoch": 2.43,
	"grad_norm": 0.43956679105758667,
	"learning_rate": 0.0007648798521256932,
	"loss": 0.0459,
	"step": 1325
	},
	{
	"epoch": 2.47,
	"grad_norm": 0.39061295986175537,
	"learning_rate": 0.0007602587800369686,
	"loss": 0.037,
	"step": 1350
	},
	{
	"epoch": 2.52,
	"grad_norm": 0.2657981216907501,
	"learning_rate": 0.0007556377079482441,
	"loss": 0.0327,
	"step": 1375
	},
	{
	"epoch": 2.56,
	"grad_norm": 0.4138255715370178,
	"learning_rate": 0.0007510166358595194,
	"loss": 0.0307,
	"step": 1400
	},
	{
	"epoch": 2.61,
	"grad_norm": 0.32367995381355286,
	"learning_rate": 0.0007463955637707949,
	"loss": 0.0335,
	"step": 1425
	},
	{
	"epoch": 2.66,
	"grad_norm": 0.5355994701385498,
	"learning_rate": 0.0007417744916820702,
	"loss": 0.0262,
	"step": 1450
	},
	{
	"epoch": 2.7,
	"grad_norm": 3.182929039001465,
	"learning_rate": 0.0007371534195933457,
	"loss": 0.0302,
	"step": 1475
	},
	{
	"epoch": 2.75,
	"grad_norm": 0.9068237543106079,
	"learning_rate": 0.000732532347504621,
	"loss": 0.0318,
	"step": 1500
	},
	{
	"epoch": 2.79,
	"grad_norm": 0.804796576499939,
	"learning_rate": 0.0007279112754158965,
	"loss": 0.0462,
	"step": 1525
	},
	{
	"epoch": 2.84,
	"grad_norm": 0.40627536177635193,
	"learning_rate": 0.0007232902033271719,
	"loss": 0.0226,
	"step": 1550
	},
	{
	"epoch": 2.88,
	"grad_norm": 0.2852160632610321,
	"learning_rate": 0.0007186691312384473,
	"loss": 0.0327,
	"step": 1575
	},
	{
	"epoch": 2.93,
	"grad_norm": 0.5738157629966736,
	"learning_rate": 0.0007140480591497227,
	"loss": 0.0317,
	"step": 1600
	},
	{
	"epoch": 2.98,
	"grad_norm": 0.2782443165779114,
	"learning_rate": 0.0007094269870609981,
	"loss": 0.0322,
	"step": 1625
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.1934811770915985,
	"eval_runtime": 175.4238,
	"eval_samples_per_second": 4.634,
	"eval_steps_per_second": 0.775,
	"step": 1638
	},
	{
	"epoch": 3.02,
	"grad_norm": 0.027267010882496834,
	"learning_rate": 0.0007048059149722735,
	"loss": 0.0248,
	"step": 1650
	},
	{
	"epoch": 3.07,
	"grad_norm": 0.23983055353164673,
	"learning_rate": 0.000700184842883549,
	"loss": 0.0252,
	"step": 1675
	},
	{
	"epoch": 3.11,
	"grad_norm": 0.03389419987797737,
	"learning_rate": 0.0006955637707948245,
	"loss": 0.0216,
	"step": 1700
	},
	{
	"epoch": 3.16,
	"grad_norm": 2.448323965072632,
	"learning_rate": 0.0006909426987060999,
	"loss": 0.0402,
	"step": 1725
	},
	{
	"epoch": 3.21,
	"grad_norm": 0.5986452102661133,
	"learning_rate": 0.0006863216266173753,
	"loss": 0.0349,
	"step": 1750
	},
	{
	"epoch": 3.25,
	"grad_norm": 0.046656377613544464,
	"learning_rate": 0.0006817005545286507,
	"loss": 0.0179,
	"step": 1775
	},
	{
	"epoch": 3.3,
	"grad_norm": 0.2432301789522171,
	"learning_rate": 0.0006770794824399261,
	"loss": 0.0261,
	"step": 1800
	},
	{
	"epoch": 3.34,
	"grad_norm": 0.4144662022590637,
	"learning_rate": 0.0006724584103512015,
	"loss": 0.0256,
	"step": 1825
	},
	{
	"epoch": 3.39,
	"grad_norm": 0.27171510457992554,
	"learning_rate": 0.000667837338262477,
	"loss": 0.0322,
	"step": 1850
	},
	{
	"epoch": 3.43,
	"grad_norm": 0.1022319346666336,
	"learning_rate": 0.0006632162661737523,
	"loss": 0.0293,
	"step": 1875
	},
	{
	"epoch": 3.48,
	"grad_norm": 0.16478094458580017,
	"learning_rate": 0.0006585951940850278,
	"loss": 0.0178,
	"step": 1900
	},
	{
	"epoch": 3.53,
	"grad_norm": 0.1675555408000946,
	"learning_rate": 0.0006539741219963031,
	"loss": 0.0174,
	"step": 1925
	},
	{
	"epoch": 3.57,
	"grad_norm": 0.39023590087890625,
	"learning_rate": 0.0006493530499075786,
	"loss": 0.0149,
	"step": 1950
	},
	{
	"epoch": 3.62,
	"grad_norm": 0.025721503421664238,
	"learning_rate": 0.0006447319778188539,
	"loss": 0.0231,
	"step": 1975
	},
	{
	"epoch": 3.66,
	"grad_norm": 0.3088337182998657,
	"learning_rate": 0.0006401109057301294,
	"loss": 0.0283,
	"step": 2000
	},
	{
	"epoch": 3.71,
	"grad_norm": 0.06729228049516678,
	"learning_rate": 0.0006354898336414048,
	"loss": 0.0204,
	"step": 2025
	},
	{
	"epoch": 3.75,
	"grad_norm": 0.18552298843860626,
	"learning_rate": 0.0006308687615526802,
	"loss": 0.0274,
	"step": 2050
	},
	{
	"epoch": 3.8,
	"grad_norm": 0.08045148104429245,
	"learning_rate": 0.0006262476894639556,
	"loss": 0.0218,
	"step": 2075
	},
	{
	"epoch": 3.85,
	"grad_norm": 0.6443850994110107,
	"learning_rate": 0.000621626617375231,
	"loss": 0.0207,
	"step": 2100
	},
	{
	"epoch": 3.89,
	"grad_norm": 0.6463542580604553,
	"learning_rate": 0.0006170055452865064,
	"loss": 0.0322,
	"step": 2125
	},
	{
	"epoch": 3.94,
	"grad_norm": 0.2903934419155121,
	"learning_rate": 0.000612384473197782,
	"loss": 0.031,
	"step": 2150
	},
	{
	"epoch": 3.98,
	"grad_norm": 0.1343035101890564,
	"learning_rate": 0.0006077634011090574,
	"loss": 0.0175,
	"step": 2175
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.1896440088748932,
	"eval_runtime": 176.3159,
	"eval_samples_per_second": 4.611,
	"eval_steps_per_second": 0.771,
	"step": 2184
	},
	{
	"epoch": 4.03,
	"grad_norm": 0.10466930270195007,
	"learning_rate": 0.0006031423290203328,
	"loss": 0.0215,
	"step": 2200
	},
	{
	"epoch": 4.08,
	"grad_norm": 0.35988566279411316,
	"learning_rate": 0.0005985212569316082,
	"loss": 0.0193,
	"step": 2225
	},
	{
	"epoch": 4.12,
	"grad_norm": 0.16410423815250397,
	"learning_rate": 0.0005939001848428836,
	"loss": 0.0143,
	"step": 2250
	},
	{
	"epoch": 4.17,
	"grad_norm": 0.2650511562824249,
	"learning_rate": 0.000589279112754159,
	"loss": 0.0268,
	"step": 2275
	},
	{
	"epoch": 4.21,
	"grad_norm": 0.2793768048286438,
	"learning_rate": 0.0005846580406654344,
	"loss": 0.0159,
	"step": 2300
	},
	{
	"epoch": 4.26,
	"grad_norm": 2.7625114917755127,
	"learning_rate": 0.0005800369685767099,
	"loss": 0.0226,
	"step": 2325
	},
	{
	"epoch": 4.3,
	"grad_norm": 0.45461520552635193,
	"learning_rate": 0.0005754158964879852,
	"loss": 0.0137,
	"step": 2350
	},
	{
	"epoch": 4.35,
	"grad_norm": 0.28511613607406616,
	"learning_rate": 0.0005707948243992607,
	"loss": 0.0184,
	"step": 2375
	},
	{
	"epoch": 4.4,
	"grad_norm": 0.5333670377731323,
	"learning_rate": 0.000566173752310536,
	"loss": 0.0186,
	"step": 2400
	},
	{
	"epoch": 4.44,
	"grad_norm": 0.41222718358039856,
	"learning_rate": 0.0005615526802218115,
	"loss": 0.011,
	"step": 2425
	},
	{
	"epoch": 4.49,
	"grad_norm": 0.27146583795547485,
	"learning_rate": 0.0005569316081330868,
	"loss": 0.0165,
	"step": 2450
	},
	{
	"epoch": 4.53,
	"grad_norm": 0.29553595185279846,
	"learning_rate": 0.0005523105360443623,
	"loss": 0.0138,
	"step": 2475
	},
	{
	"epoch": 4.58,
	"grad_norm": 0.13532432913780212,
	"learning_rate": 0.0005476894639556377,
	"loss": 0.0167,
	"step": 2500
	},
	{
	"epoch": 4.62,
	"grad_norm": 0.10051342844963074,
	"learning_rate": 0.0005430683918669131,
	"loss": 0.0152,
	"step": 2525
	},
	{
	"epoch": 4.67,
	"grad_norm": 0.023720353841781616,
	"learning_rate": 0.0005384473197781885,
	"loss": 0.0155,
	"step": 2550
	},
	{
	"epoch": 4.72,
	"grad_norm": 0.2686695456504822,
	"learning_rate": 0.0005338262476894639,
	"loss": 0.0125,
	"step": 2575
	},
	{
	"epoch": 4.76,
	"grad_norm": 0.33857473731040955,
	"learning_rate": 0.0005292051756007393,
	"loss": 0.0332,
	"step": 2600
	},
	{
	"epoch": 4.81,
	"grad_norm": 0.0131806880235672,
	"learning_rate": 0.0005245841035120147,
	"loss": 0.014,
	"step": 2625
	},
	{
	"epoch": 4.85,
	"grad_norm": 0.4342842698097229,
	"learning_rate": 0.0005199630314232903,
	"loss": 0.016,
	"step": 2650
	},
	{
	"epoch": 4.9,
	"grad_norm": 0.005540889222174883,
	"learning_rate": 0.0005153419593345657,
	"loss": 0.0134,
	"step": 2675
	},
	{
	"epoch": 4.95,
	"grad_norm": 0.004122666083276272,
	"learning_rate": 0.0005107208872458411,
	"loss": 0.0223,
	"step": 2700
	},
	{
	"epoch": 4.99,
	"grad_norm": 0.14384405314922333,
	"learning_rate": 0.0005060998151571165,
	"loss": 0.0266,
	"step": 2725
	},
	{
	"epoch": 5.0,
	"eval_loss": 0.19267761707305908,
	"eval_runtime": 179.8301,
	"eval_samples_per_second": 4.521,
	"eval_steps_per_second": 0.756,
	"step": 2730
	},
	{
	"epoch": 5.04,
	"grad_norm": 0.3819844126701355,
	"learning_rate": 0.0005014787430683919,
	"loss": 0.0166,
	"step": 2750
	},
	{
	"epoch": 5.08,
	"grad_norm": 0.27138832211494446,
	"learning_rate": 0.0004968576709796673,
	"loss": 0.0056,
	"step": 2775
	},
	{
	"epoch": 5.13,
	"grad_norm": 0.36033156514167786,
	"learning_rate": 0.0004922365988909427,
	"loss": 0.0084,
	"step": 2800
	},
	{
	"epoch": 5.17,
	"grad_norm": 0.3422500789165497,
	"learning_rate": 0.0004876155268022181,
	"loss": 0.0089,
	"step": 2825
	},
	{
	"epoch": 5.22,
	"grad_norm": 0.12272176891565323,
	"learning_rate": 0.0004829944547134935,
	"loss": 0.0079,
	"step": 2850
	},
	{
	"epoch": 5.27,
	"grad_norm": 0.03446231782436371,
	"learning_rate": 0.000478373382624769,
	"loss": 0.011,
	"step": 2875
	},
	{
	"epoch": 5.31,
	"grad_norm": 0.2042599320411682,
	"learning_rate": 0.0004737523105360444,
	"loss": 0.0091,
	"step": 2900
	},
	{
	"epoch": 5.36,
	"grad_norm": 0.18888217210769653,
	"learning_rate": 0.0004691312384473198,
	"loss": 0.0146,
	"step": 2925
	},
	{
	"epoch": 5.4,
	"grad_norm": 4.216693878173828,
	"learning_rate": 0.0004645101663585952,
	"loss": 0.0162,
	"step": 2950
	},
	{
	"epoch": 5.45,
	"grad_norm": 0.20249082148075104,
	"learning_rate": 0.0004598890942698706,
	"loss": 0.0193,
	"step": 2975
	},
	{
	"epoch": 5.49,
	"grad_norm": 0.37886273860931396,
	"learning_rate": 0.00045526802218114607,
	"loss": 0.0163,
	"step": 3000
	},
	{
	"epoch": 5.54,
	"grad_norm": 0.24141408503055573,
	"learning_rate": 0.0004506469500924215,
	"loss": 0.0147,
	"step": 3025
	},
	{
	"epoch": 5.59,
	"grad_norm": 0.23406554758548737,
	"learning_rate": 0.0004460258780036969,
	"loss": 0.0145,
	"step": 3050
	},
	{
	"epoch": 5.63,
	"grad_norm": 0.355023056268692,
	"learning_rate": 0.0004414048059149723,
	"loss": 0.0144,
	"step": 3075
	},
	{
	"epoch": 5.68,
	"grad_norm": 0.18628603219985962,
	"learning_rate": 0.0004367837338262477,
	"loss": 0.0105,
	"step": 3100
	},
	{
	"epoch": 5.72,
	"grad_norm": 0.328931987285614,
	"learning_rate": 0.0004321626617375231,
	"loss": 0.0107,
	"step": 3125
	},
	{
	"epoch": 5.77,
	"grad_norm": 0.004133810754865408,
	"learning_rate": 0.0004275415896487985,
	"loss": 0.01,
	"step": 3150
	},
	{
	"epoch": 5.82,
	"grad_norm": 0.036314379423856735,
	"learning_rate": 0.0004229205175600739,
	"loss": 0.0127,
	"step": 3175
	},
	{
	"epoch": 5.86,
	"grad_norm": 0.27704620361328125,
	"learning_rate": 0.00041829944547134933,
	"loss": 0.0111,
	"step": 3200
	},
	{
	"epoch": 5.91,
	"grad_norm": 0.5109962821006775,
	"learning_rate": 0.00041367837338262474,
	"loss": 0.0157,
	"step": 3225
	},
	{
	"epoch": 5.95,
	"grad_norm": 0.09048620611429214,
	"learning_rate": 0.0004090573012939002,
	"loss": 0.0184,
	"step": 3250
	},
	{
	"epoch": 6.0,
	"grad_norm": 0.010707640089094639,
	"learning_rate": 0.0004044362292051756,
	"loss": 0.0178,
	"step": 3275
	},
	{
	"epoch": 6.0,
	"eval_loss": 0.20126062631607056,
	"eval_runtime": 179.6758,
	"eval_samples_per_second": 4.525,
	"eval_steps_per_second": 0.757,
	"step": 3276
	},
	{
	"epoch": 6.04,
	"grad_norm": 0.013095181435346603,
	"learning_rate": 0.000399815157116451,
	"loss": 0.0106,
	"step": 3300
	},
	{
	"epoch": 6.09,
	"grad_norm": 0.15969859063625336,
	"learning_rate": 0.0003951940850277264,
	"loss": 0.0098,
	"step": 3325
	},
	{
	"epoch": 6.14,
	"grad_norm": 0.09395785629749298,
	"learning_rate": 0.0003905730129390019,
	"loss": 0.012,
	"step": 3350
	},
	{
	"epoch": 6.18,
	"grad_norm": 0.010071701370179653,
	"learning_rate": 0.0003859519408502773,
	"loss": 0.0071,
	"step": 3375
	},
	{
	"epoch": 6.23,
	"grad_norm": 0.005003762431442738,
	"learning_rate": 0.0003813308687615527,
	"loss": 0.0093,
	"step": 3400
	},
	{
	"epoch": 6.27,
	"grad_norm": 0.01751079224050045,
	"learning_rate": 0.0003767097966728281,
	"loss": 0.0093,
	"step": 3425
	},
	{
	"epoch": 6.32,
	"grad_norm": 0.048858534544706345,
	"learning_rate": 0.0003720887245841035,
	"loss": 0.0092,
	"step": 3450
	},
	{
	"epoch": 6.36,
	"grad_norm": 0.05492233484983444,
	"learning_rate": 0.0003674676524953789,
	"loss": 0.0137,
	"step": 3475
	},
	{
	"epoch": 6.41,
	"grad_norm": 0.011647823266685009,
	"learning_rate": 0.0003628465804066544,
	"loss": 0.008,
	"step": 3500
	},
	{
	"epoch": 6.46,
	"grad_norm": 0.02023889683187008,
	"learning_rate": 0.0003582255083179298,
	"loss": 0.0064,
	"step": 3525
	},
	{
	"epoch": 6.5,
	"grad_norm": 0.1093795895576477,
	"learning_rate": 0.0003536044362292052,
	"loss": 0.0087,
	"step": 3550
	},
	{
	"epoch": 6.55,
	"grad_norm": 0.33639025688171387,
	"learning_rate": 0.0003489833641404806,
	"loss": 0.0127,
	"step": 3575
	},
	{
	"epoch": 6.59,
	"grad_norm": 0.08823797106742859,
	"learning_rate": 0.000344362292051756,
	"loss": 0.0112,
	"step": 3600
	},
	{
	"epoch": 6.64,
	"grad_norm": 0.052434779703617096,
	"learning_rate": 0.0003397412199630314,
	"loss": 0.0116,
	"step": 3625
	},
	{
	"epoch": 6.68,
	"grad_norm": 0.1535090208053589,
	"learning_rate": 0.0003351201478743068,
	"loss": 0.011,
	"step": 3650
	},
	{
	"epoch": 6.73,
	"grad_norm": 0.2711283564567566,
	"learning_rate": 0.00033049907578558223,
	"loss": 0.007,
	"step": 3675
	},
	{
	"epoch": 6.78,
	"grad_norm": 0.006919647566974163,
	"learning_rate": 0.00032587800369685764,
	"loss": 0.0098,
	"step": 3700
	},
	{
	"epoch": 6.82,
	"grad_norm": 0.03872460126876831,
	"learning_rate": 0.0003212569316081331,
	"loss": 0.0092,
	"step": 3725
	},
	{
	"epoch": 6.87,
	"grad_norm": 0.0396348237991333,
	"learning_rate": 0.0003166358595194085,
	"loss": 0.0126,
	"step": 3750
	},
	{
	"epoch": 6.91,
	"grad_norm": 0.008865280076861382,
	"learning_rate": 0.0003120147874306839,
	"loss": 0.0097,
	"step": 3775
	},
	{
	"epoch": 6.96,
	"grad_norm": 0.2857593894004822,
	"learning_rate": 0.0003073937153419594,
	"loss": 0.0081,
	"step": 3800
	},
	{
	"epoch": 7.0,
	"eval_loss": 0.19787272810935974,
	"eval_runtime": 178.7624,
	"eval_samples_per_second": 4.548,
	"eval_steps_per_second": 0.761,
	"step": 3822
	},
	{
	"epoch": 7.01,
	"grad_norm": 0.162245973944664,
	"learning_rate": 0.0003027726432532348,
	"loss": 0.0091,
	"step": 3825
	},
	{
	"epoch": 7.05,
	"grad_norm": 0.08275479078292847,
	"learning_rate": 0.0002981515711645102,
	"loss": 0.0064,
	"step": 3850
	},
	{
	"epoch": 7.1,
	"grad_norm": 0.04956310614943504,
	"learning_rate": 0.0002935304990757856,
	"loss": 0.0033,
	"step": 3875
	},
	{
	"epoch": 7.14,
	"grad_norm": 0.2950696647167206,
	"learning_rate": 0.000288909426987061,
	"loss": 0.0059,
	"step": 3900
	},
	{
	"epoch": 7.19,
	"grad_norm": 0.16667646169662476,
	"learning_rate": 0.0002842883548983364,
	"loss": 0.0065,
	"step": 3925
	},
	{
	"epoch": 7.23,
	"grad_norm": 0.018928788602352142,
	"learning_rate": 0.0002796672828096118,
	"loss": 0.0053,
	"step": 3950
	},
	{
	"epoch": 7.28,
	"grad_norm": 0.01914687640964985,
	"learning_rate": 0.0002750462107208873,
	"loss": 0.0058,
	"step": 3975
	},
	{
	"epoch": 7.33,
	"grad_norm": 0.009565665386617184,
	"learning_rate": 0.0002704251386321627,
	"loss": 0.0042,
	"step": 4000
	},
	{
	"epoch": 7.37,
	"grad_norm": 0.10117679834365845,
	"learning_rate": 0.0002658040665434381,
	"loss": 0.0081,
	"step": 4025
	},
	{
	"epoch": 7.42,
	"grad_norm": 0.10825569927692413,
	"learning_rate": 0.0002611829944547135,
	"loss": 0.0088,
	"step": 4050
	},
	{
	"epoch": 7.46,
	"grad_norm": 0.008808852173388004,
	"learning_rate": 0.0002565619223659889,
	"loss": 0.0052,
	"step": 4075
	},
	{
	"epoch": 7.51,
	"grad_norm": 0.0186983160674572,
	"learning_rate": 0.0002519408502772643,
	"loss": 0.0051,
	"step": 4100
	},
	{
	"epoch": 7.55,
	"grad_norm": 0.07354945689439774,
	"learning_rate": 0.0002473197781885397,
	"loss": 0.0055,
	"step": 4125
	},
	{
	"epoch": 7.6,
	"grad_norm": 0.0021155644208192825,
	"learning_rate": 0.0002426987060998152,
	"loss": 0.0044,
	"step": 4150
	},
	{
	"epoch": 7.65,
	"grad_norm": 0.08616074174642563,
	"learning_rate": 0.0002380776340110906,
	"loss": 0.0037,
	"step": 4175
	},
	{
	"epoch": 7.69,
	"grad_norm": 0.009911403059959412,
	"learning_rate": 0.000233456561922366,
	"loss": 0.0073,
	"step": 4200
	},
	{
	"epoch": 7.74,
	"grad_norm": 0.36762863397598267,
	"learning_rate": 0.0002288354898336414,
	"loss": 0.004,
	"step": 4225
	},
	{
	"epoch": 7.78,
	"grad_norm": 0.0590713806450367,
	"learning_rate": 0.00022421441774491682,
	"loss": 0.0034,
	"step": 4250
	},
	{
	"epoch": 7.83,
	"grad_norm": 0.0876949205994606,
	"learning_rate": 0.00021959334565619225,
	"loss": 0.0061,
	"step": 4275
	},
	{
	"epoch": 7.88,
	"grad_norm": 0.2488565295934677,
	"learning_rate": 0.00021497227356746766,
	"loss": 0.0047,
	"step": 4300
	},
	{
	"epoch": 7.92,
	"grad_norm": 0.16184526681900024,
	"learning_rate": 0.00021035120147874306,
	"loss": 0.0064,
	"step": 4325
	},
	{
	"epoch": 7.97,
	"grad_norm": 0.025223182514309883,
	"learning_rate": 0.00020573012939001847,
	"loss": 0.0081,
	"step": 4350
	},
	{
	"epoch": 8.0,
	"eval_loss": 0.21132159233093262,
	"eval_runtime": 178.6799,
	"eval_samples_per_second": 4.55,
	"eval_steps_per_second": 0.761,
	"step": 4368
	},
	{
	"epoch": 8.01,
	"grad_norm": 0.04916756972670555,
	"learning_rate": 0.00020110905730129388,
	"loss": 0.0049,
	"step": 4375
	},
	{
	"epoch": 8.06,
	"grad_norm": 0.010703769512474537,
	"learning_rate": 0.00019648798521256934,
	"loss": 0.0034,
	"step": 4400
	},
	{
	"epoch": 8.1,
	"grad_norm": 0.004313566256314516,
	"learning_rate": 0.00019186691312384475,
	"loss": 0.003,
	"step": 4425
	},
	{
	"epoch": 8.15,
	"grad_norm": 0.18936963379383087,
	"learning_rate": 0.00018724584103512016,
	"loss": 0.004,
	"step": 4450
	},
	{
	"epoch": 8.2,
	"grad_norm": 0.0596047043800354,
	"learning_rate": 0.00018262476894639556,
	"loss": 0.0027,
	"step": 4475
	},
	{
	"epoch": 8.24,
	"grad_norm": 0.0016723590670153499,
	"learning_rate": 0.00017800369685767097,
	"loss": 0.0037,
	"step": 4500
	},
	{
	"epoch": 8.29,
	"grad_norm": 0.026407798752188683,
	"learning_rate": 0.0001733826247689464,
	"loss": 0.0026,
	"step": 4525
	},
	{
	"epoch": 8.33,
	"grad_norm": 0.004466090817004442,
	"learning_rate": 0.0001687615526802218,
	"loss": 0.0044,
	"step": 4550
	},
	{
	"epoch": 8.38,
	"grad_norm": 0.013297215104103088,
	"learning_rate": 0.00016414048059149722,
	"loss": 0.0044,
	"step": 4575
	},
	{
	"epoch": 8.42,
	"grad_norm": 0.013365192338824272,
	"learning_rate": 0.00015951940850277263,
	"loss": 0.0033,
	"step": 4600
	},
	{
	"epoch": 8.47,
	"grad_norm": 0.32592836022377014,
	"learning_rate": 0.0001548983364140481,
	"loss": 0.0056,
	"step": 4625
	},
	{
	"epoch": 8.52,
	"grad_norm": 0.023310931399464607,
	"learning_rate": 0.0001502772643253235,
	"loss": 0.0017,
	"step": 4650
	},
	{
	"epoch": 8.56,
	"grad_norm": 0.0938984677195549,
	"learning_rate": 0.0001456561922365989,
	"loss": 0.0028,
	"step": 4675
	},
	{
	"epoch": 8.61,
	"grad_norm": 0.006782053969800472,
	"learning_rate": 0.0001410351201478743,
	"loss": 0.0019,
	"step": 4700
	},
	{
	"epoch": 8.65,
	"grad_norm": 0.08395280689001083,
	"learning_rate": 0.00013641404805914972,
	"loss": 0.0024,
	"step": 4725
	},
	{
	"epoch": 8.7,
	"grad_norm": 0.04261644929647446,
	"learning_rate": 0.00013179297597042515,
	"loss": 0.0029,
	"step": 4750
	},
	{
	"epoch": 8.75,
	"grad_norm": 0.020602483302354813,
	"learning_rate": 0.00012717190388170056,
	"loss": 0.0025,
	"step": 4775
	},
	{
	"epoch": 8.79,
	"grad_norm": 0.0013005019864067435,
	"learning_rate": 0.00012255083179297597,
	"loss": 0.0024,
	"step": 4800
	},
	{
	"epoch": 8.84,
	"grad_norm": 0.0019000261090695858,
	"learning_rate": 0.00011792975970425139,
	"loss": 0.004,
	"step": 4825
	},
	{
	"epoch": 8.88,
	"grad_norm": 0.02021609991788864,
	"learning_rate": 0.00011330868761552681,
	"loss": 0.0023,
	"step": 4850
	},
	{
	"epoch": 8.93,
	"grad_norm": 0.012654704973101616,
	"learning_rate": 0.00010868761552680221,
	"loss": 0.0036,
	"step": 4875
	},
	{
	"epoch": 8.97,
	"grad_norm": 0.009410886093974113,
	"learning_rate": 0.00010406654343807764,
	"loss": 0.0018,
	"step": 4900
	},
	{
	"epoch": 9.0,
	"eval_loss": 0.2146490514278412,
	"eval_runtime": 176.7137,
	"eval_samples_per_second": 4.601,
	"eval_steps_per_second": 0.77,
	"step": 4914
	},
	{
	"epoch": 9.02,
	"grad_norm": 0.00876565556973219,
	"learning_rate": 9.944547134935306e-05,
	"loss": 0.0024,
	"step": 4925
	},
	{
	"epoch": 9.07,
	"grad_norm": 0.001896819332614541,
	"learning_rate": 9.482439926062846e-05,
	"loss": 0.0013,
	"step": 4950
	},
	{
	"epoch": 9.11,
	"grad_norm": 0.007586441468447447,
	"learning_rate": 9.020332717190388e-05,
	"loss": 0.0017,
	"step": 4975
	},
	{
	"epoch": 9.16,
	"grad_norm": 0.006564935203641653,
	"learning_rate": 8.558225508317929e-05,
	"loss": 0.003,
	"step": 5000
	},
	{
	"epoch": 9.2,
	"grad_norm": 0.005424303933978081,
	"learning_rate": 8.096118299445473e-05,
	"loss": 0.0014,
	"step": 5025
	},
	{
	"epoch": 9.25,
	"grad_norm": 0.0165091622620821,
	"learning_rate": 7.634011090573013e-05,
	"loss": 0.0027,
	"step": 5050
	},
	{
	"epoch": 9.29,
	"grad_norm": 0.09231999516487122,
	"learning_rate": 7.171903881700554e-05,
	"loss": 0.0018,
	"step": 5075
	},
	{
	"epoch": 9.34,
	"grad_norm": 0.16238878667354584,
	"learning_rate": 6.709796672828096e-05,
	"loss": 0.0015,
	"step": 5100
	},
	{
	"epoch": 9.39,
	"grad_norm": 0.04476441815495491,
	"learning_rate": 6.247689463955638e-05,
	"loss": 0.0011,
	"step": 5125
	},
	{
	"epoch": 9.43,
	"grad_norm": 0.00874653086066246,
	"learning_rate": 5.785582255083179e-05,
	"loss": 0.0008,
	"step": 5150
	},
	{
	"epoch": 9.48,
	"grad_norm": 0.010477906093001366,
	"learning_rate": 5.323475046210721e-05,
	"loss": 0.0021,
	"step": 5175
	},
	{
	"epoch": 9.52,
	"grad_norm": 0.00953985471278429,
	"learning_rate": 4.8613678373382625e-05,
	"loss": 0.0017,
	"step": 5200
	},
	{
	"epoch": 9.57,
	"grad_norm": 0.0022518846672028303,
	"learning_rate": 4.3992606284658045e-05,
	"loss": 0.0019,
	"step": 5225
	},
	{
	"epoch": 9.62,
	"grad_norm": 0.037685129791498184,
	"learning_rate": 3.937153419593346e-05,
	"loss": 0.001,
	"step": 5250
	},
	{
	"epoch": 9.66,
	"grad_norm": 0.08190955966711044,
	"learning_rate": 3.4750462107208874e-05,
	"loss": 0.0017,
	"step": 5275
	},
	{
	"epoch": 9.71,
	"grad_norm": 0.017375241965055466,
	"learning_rate": 3.012939001848429e-05,
	"loss": 0.0016,
	"step": 5300
	},
	{
	"epoch": 9.75,
	"grad_norm": 0.03486447408795357,
	"learning_rate": 2.5508317929759705e-05,
	"loss": 0.0012,
	"step": 5325
	},
	{
	"epoch": 9.8,
	"grad_norm": 0.0786125510931015,
	"learning_rate": 2.088724584103512e-05,
	"loss": 0.0012,
	"step": 5350
	},
	{
	"epoch": 9.84,
	"grad_norm": 0.09049534052610397,
	"learning_rate": 1.6266173752310537e-05,
	"loss": 0.0012,
	"step": 5375
	},
	{
	"epoch": 9.89,
	"grad_norm": 0.012832165695726871,
	"learning_rate": 1.1645101663585952e-05,
	"loss": 0.0014,
	"step": 5400
	},
	{
	"epoch": 9.94,
	"grad_norm": 0.006516186986118555,
	"learning_rate": 7.024029574861368e-06,
	"loss": 0.0015,
	"step": 5425
	},
	{
	"epoch": 9.98,
	"grad_norm": 0.02494051493704319,
	"learning_rate": 2.402957486136784e-06,
	"loss": 0.0015,
	"step": 5450
	},
	{
	"epoch": 10.0,
	"eval_loss": 0.221242755651474,
	"eval_runtime": 176.7742,
	"eval_samples_per_second": 4.599,
	"eval_steps_per_second": 0.769,
	"step": 5460
	},
	{
	"epoch": 10.0,
	"step": 5460,
	"total_flos": 9.7789895073792e+18,
	"train_loss": 0.024085146698745945,
	"train_runtime": 10729.5864,
	"train_samples_per_second": 3.05,
	"train_steps_per_second": 0.509
	}
	],
	"logging_steps": 25,
	"max_steps": 5460,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 500,
	"total_flos": 9.7789895073792e+18,
	"train_batch_size": 6,
	"trial_name": null,
	"trial_params": null
	}