{ "best_metric": null, "best_model_checkpoint": null, "epoch": 13.041666666666666, "eval_steps": 500, "global_step": 78, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.16666666666666666, "grad_norm": 1.1271398067474365, "learning_rate": 2e-05, "loss": 2.9584, "step": 1 }, { "epoch": 0.3333333333333333, "grad_norm": 1.422092080116272, "learning_rate": 4e-05, "loss": 3.2009, "step": 2 }, { "epoch": 0.5, "grad_norm": 1.1738420724868774, "learning_rate": 6e-05, "loss": 2.4122, "step": 3 }, { "epoch": 0.6666666666666666, "grad_norm": 1.6034629344940186, "learning_rate": 8e-05, "loss": 3.3344, "step": 4 }, { "epoch": 0.8333333333333334, "grad_norm": 1.4037781953811646, "learning_rate": 0.0001, "loss": 3.0513, "step": 5 }, { "epoch": 1.0, "grad_norm": 1.3824858665466309, "learning_rate": 0.00012, "loss": 2.8625, "step": 6 }, { "epoch": 1.1666666666666667, "grad_norm": 1.5012552738189697, "learning_rate": 0.00014, "loss": 2.3477, "step": 7 }, { "epoch": 1.3333333333333333, "grad_norm": 1.2384544610977173, "learning_rate": 0.00016, "loss": 2.2554, "step": 8 }, { "epoch": 1.5, "grad_norm": 1.276849627494812, "learning_rate": 0.00018, "loss": 1.9606, "step": 9 }, { "epoch": 1.6666666666666665, "grad_norm": 4.319679260253906, "learning_rate": 0.0002, "loss": 1.6649, "step": 10 }, { "epoch": 1.8333333333333335, "grad_norm": 2.108405590057373, "learning_rate": 0.00019990989662046818, "loss": 1.6686, "step": 11 }, { "epoch": 2.0, "grad_norm": 1.5001091957092285, "learning_rate": 0.00019963974885425266, "loss": 1.5168, "step": 12 }, { "epoch": 2.1666666666666665, "grad_norm": 1.2782559394836426, "learning_rate": 0.00019919004352588767, "loss": 1.259, "step": 13 }, { "epoch": 2.3333333333333335, "grad_norm": 0.8510739207267761, "learning_rate": 0.00019856159103477086, "loss": 1.3734, "step": 14 }, { "epoch": 2.5, "grad_norm": 1.029380440711975, "learning_rate": 0.00019775552389476864, "loss": 1.0973, "step": 15 }, { "epoch": 2.6666666666666665, "grad_norm": 0.9332380294799805, "learning_rate": 0.0001967732946933499, "loss": 1.1187, "step": 16 }, { "epoch": 2.8333333333333335, "grad_norm": 0.40721994638442993, "learning_rate": 0.00019561667347392508, "loss": 1.0731, "step": 17 }, { "epoch": 3.0, "grad_norm": 0.37097784876823425, "learning_rate": 0.00019428774454610843, "loss": 0.9648, "step": 18 }, { "epoch": 3.1666666666666665, "grad_norm": 0.9125034213066101, "learning_rate": 0.00019278890272965096, "loss": 1.0488, "step": 19 }, { "epoch": 3.3333333333333335, "grad_norm": 0.33954763412475586, "learning_rate": 0.0001911228490388136, "loss": 0.7104, "step": 20 }, { "epoch": 3.5, "grad_norm": 0.5465924143791199, "learning_rate": 0.00018929258581495685, "loss": 0.8922, "step": 21 }, { "epoch": 3.6666666666666665, "grad_norm": 0.5326284766197205, "learning_rate": 0.00018730141131611882, "loss": 0.832, "step": 22 }, { "epoch": 3.8333333333333335, "grad_norm": 0.3010997474193573, "learning_rate": 0.00018515291377333112, "loss": 0.6993, "step": 23 }, { "epoch": 4.0, "grad_norm": 0.3331871032714844, "learning_rate": 0.00018285096492438424, "loss": 0.86, "step": 24 }, { "epoch": 4.166666666666667, "grad_norm": 0.36899134516716003, "learning_rate": 0.00018039971303669407, "loss": 0.6736, "step": 25 }, { "epoch": 4.333333333333333, "grad_norm": 0.7599577903747559, "learning_rate": 0.00017780357543184397, "loss": 0.755, "step": 26 }, { "epoch": 4.5, "grad_norm": 0.30434125661849976, "learning_rate": 0.00017506723052527242, "loss": 0.5069, "step": 27 }, { "epoch": 4.666666666666667, "grad_norm": 0.34017109870910645, "learning_rate": 0.00017219560939545246, "loss": 0.6245, "step": 28 }, { "epoch": 4.833333333333333, "grad_norm": 0.35667353868484497, "learning_rate": 0.00016919388689775464, "loss": 0.6572, "step": 29 }, { "epoch": 5.0, "grad_norm": 0.27407756447792053, "learning_rate": 0.00016606747233900815, "loss": 0.5943, "step": 30 }, { "epoch": 5.166666666666667, "grad_norm": 0.3013049066066742, "learning_rate": 0.00016282199972956425, "loss": 0.5434, "step": 31 }, { "epoch": 5.333333333333333, "grad_norm": 0.27944543957710266, "learning_rate": 0.00015946331763042867, "loss": 0.4273, "step": 32 }, { "epoch": 5.5, "grad_norm": 0.25371015071868896, "learning_rate": 0.00015599747861375955, "loss": 0.4137, "step": 33 }, { "epoch": 5.666666666666667, "grad_norm": 0.2801273763179779, "learning_rate": 0.00015243072835572318, "loss": 0.5152, "step": 34 }, { "epoch": 5.833333333333333, "grad_norm": 0.24503201246261597, "learning_rate": 0.00014876949438136347, "loss": 0.4069, "step": 35 }, { "epoch": 6.041666666666667, "grad_norm": 0.2870718240737915, "learning_rate": 0.00014502037448176734, "loss": 0.536, "step": 36 }, { "epoch": 6.208333333333333, "grad_norm": 0.22945798933506012, "learning_rate": 0.0001411901248243993, "loss": 0.2834, "step": 37 }, { "epoch": 6.375, "grad_norm": 0.2309902459383011, "learning_rate": 0.00013728564777803088, "loss": 0.2908, "step": 38 }, { "epoch": 6.541666666666667, "grad_norm": 0.3030891418457031, "learning_rate": 0.00013331397947420576, "loss": 0.3334, "step": 39 }, { "epoch": 6.708333333333333, "grad_norm": 0.20073279738426208, "learning_rate": 0.00012928227712765504, "loss": 0.2531, "step": 40 }, { "epoch": 6.875, "grad_norm": 0.2173294574022293, "learning_rate": 0.00012519780613851254, "loss": 0.3421, "step": 41 }, { "epoch": 7.041666666666667, "grad_norm": 0.18676938116550446, "learning_rate": 0.00012106792699957263, "loss": 0.2114, "step": 42 }, { "epoch": 7.166666666666667, "grad_norm": 0.25375601649284363, "learning_rate": 0.00011690008203218493, "loss": 0.2116, "step": 43 }, { "epoch": 7.333333333333333, "grad_norm": 0.20741993188858032, "learning_rate": 0.00011270178197468789, "loss": 0.2167, "step": 44 }, { "epoch": 7.5, "grad_norm": 0.19521987438201904, "learning_rate": 0.00010848059244755093, "loss": 0.1766, "step": 45 }, { "epoch": 7.666666666666667, "grad_norm": 0.1847311407327652, "learning_rate": 0.00010424412031961484, "loss": 0.2145, "step": 46 }, { "epoch": 7.833333333333333, "grad_norm": 0.36307504773139954, "learning_rate": 0.0001, "loss": 0.1616, "step": 47 }, { "epoch": 8.0, "grad_norm": 0.22532600164413452, "learning_rate": 9.57558796803852e-05, "loss": 0.1991, "step": 48 }, { "epoch": 8.166666666666666, "grad_norm": 0.4792623519897461, "learning_rate": 9.151940755244912e-05, "loss": 0.1564, "step": 49 }, { "epoch": 8.333333333333334, "grad_norm": 0.24092555046081543, "learning_rate": 8.729821802531212e-05, "loss": 0.1201, "step": 50 }, { "epoch": 8.5, "grad_norm": 0.17501050233840942, "learning_rate": 8.309991796781511e-05, "loss": 0.1065, "step": 51 }, { "epoch": 8.666666666666666, "grad_norm": 0.4367760419845581, "learning_rate": 7.89320730004274e-05, "loss": 0.1406, "step": 52 }, { "epoch": 8.833333333333334, "grad_norm": 0.20733828842639923, "learning_rate": 7.48021938614875e-05, "loss": 0.1129, "step": 53 }, { "epoch": 9.0, "grad_norm": 0.19014810025691986, "learning_rate": 7.071772287234497e-05, "loss": 0.1025, "step": 54 }, { "epoch": 9.166666666666666, "grad_norm": 0.16661641001701355, "learning_rate": 6.668602052579424e-05, "loss": 0.0843, "step": 55 }, { "epoch": 9.333333333333334, "grad_norm": 0.1476866900920868, "learning_rate": 6.271435222196916e-05, "loss": 0.0728, "step": 56 }, { "epoch": 9.5, "grad_norm": 0.20420700311660767, "learning_rate": 5.880987517560075e-05, "loss": 0.086, "step": 57 }, { "epoch": 9.666666666666666, "grad_norm": 0.1535949558019638, "learning_rate": 5.497962551823266e-05, "loss": 0.0615, "step": 58 }, { "epoch": 9.833333333333334, "grad_norm": 0.19429926574230194, "learning_rate": 5.123050561863657e-05, "loss": 0.081, "step": 59 }, { "epoch": 10.0, "grad_norm": 0.21439994871616364, "learning_rate": 4.756927164427685e-05, "loss": 0.0955, "step": 60 }, { "epoch": 10.166666666666666, "grad_norm": 0.1313120573759079, "learning_rate": 4.4002521386240466e-05, "loss": 0.0515, "step": 61 }, { "epoch": 10.333333333333334, "grad_norm": 0.14114493131637573, "learning_rate": 4.053668236957134e-05, "loss": 0.0486, "step": 62 }, { "epoch": 10.5, "grad_norm": 0.15726757049560547, "learning_rate": 3.717800027043576e-05, "loss": 0.0582, "step": 63 }, { "epoch": 10.666666666666666, "grad_norm": 0.13571308553218842, "learning_rate": 3.393252766099187e-05, "loss": 0.0477, "step": 64 }, { "epoch": 10.833333333333334, "grad_norm": 0.13939297199249268, "learning_rate": 3.080611310224539e-05, "loss": 0.0579, "step": 65 }, { "epoch": 11.041666666666666, "grad_norm": 0.21565848588943481, "learning_rate": 2.7804390604547557e-05, "loss": 0.0671, "step": 66 }, { "epoch": 11.208333333333334, "grad_norm": 0.12363166362047195, "learning_rate": 2.493276947472756e-05, "loss": 0.0479, "step": 67 }, { "epoch": 11.375, "grad_norm": 0.1485053449869156, "learning_rate": 2.2196424568156073e-05, "loss": 0.0441, "step": 68 }, { "epoch": 11.541666666666666, "grad_norm": 0.12759965658187866, "learning_rate": 1.9600286963305957e-05, "loss": 0.0333, "step": 69 }, { "epoch": 11.708333333333334, "grad_norm": 0.1261347383260727, "learning_rate": 1.7149035075615794e-05, "loss": 0.0362, "step": 70 }, { "epoch": 11.875, "grad_norm": 0.13846437633037567, "learning_rate": 1.4847086226668872e-05, "loss": 0.0424, "step": 71 }, { "epoch": 12.041666666666666, "grad_norm": 0.13384558260440826, "learning_rate": 1.2698588683881186e-05, "loss": 0.0379, "step": 72 }, { "epoch": 12.208333333333334, "grad_norm": 0.11773449927568436, "learning_rate": 1.0707414185043163e-05, "loss": 0.0378, "step": 73 }, { "epoch": 12.375, "grad_norm": 0.1243445873260498, "learning_rate": 8.87715096118642e-06, "loss": 0.0393, "step": 74 }, { "epoch": 12.541666666666666, "grad_norm": 0.11930937319993973, "learning_rate": 7.211097270349066e-06, "loss": 0.0321, "step": 75 }, { "epoch": 12.708333333333334, "grad_norm": 0.09208700060844421, "learning_rate": 5.71225545389158e-06, "loss": 0.0274, "step": 76 }, { "epoch": 12.875, "grad_norm": 0.1095806434750557, "learning_rate": 4.383326526074916e-06, "loss": 0.0258, "step": 77 }, { "epoch": 13.041666666666666, "grad_norm": 0.1109592393040657, "learning_rate": 3.226705306650113e-06, "loss": 0.0415, "step": 78 } ], "logging_steps": 1, "max_steps": 84, "num_input_tokens_seen": 0, "num_train_epochs": 14, "save_steps": 6, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 439125509406720.0, "train_batch_size": 1, "trial_name": null, "trial_params": null }