{
  "best_metric": 0.5994039177894592,
  "best_model_checkpoint": "outputs/checkpoint-1839",
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 1839,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.08,
      "learning_rate": 3.147441434337073e-05,
      "loss": 2.727,
      "step": 50
    },
    {
      "epoch": 0.16,
      "learning_rate": 3.705117131325856e-05,
      "loss": 2.0215,
      "step": 100
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.031336501627827e-05,
      "loss": 1.4483,
      "step": 150
    },
    {
      "epoch": 0.33,
      "learning_rate": 4.262792828314637e-05,
      "loss": 1.2309,
      "step": 200
    },
    {
      "epoch": 0.41,
      "learning_rate": 4.442324303011218e-05,
      "loss": 1.0732,
      "step": 250
    },
    {
      "epoch": 0.49,
      "learning_rate": 4.589012198616609e-05,
      "loss": 1.0297,
      "step": 300
    },
    {
      "epoch": 0.57,
      "learning_rate": 4.713035047190436e-05,
      "loss": 0.9676,
      "step": 350
    },
    {
      "epoch": 0.65,
      "learning_rate": 4.82046852530342e-05,
      "loss": 0.9311,
      "step": 400
    },
    {
      "epoch": 0.73,
      "learning_rate": 4.915231568918581e-05,
      "loss": 0.9144,
      "step": 450
    },
    {
      "epoch": 0.82,
      "learning_rate": 5e-05,
      "loss": 0.8811,
      "step": 500
    },
    {
      "epoch": 0.9,
      "learning_rate": 4.971822886716504e-05,
      "loss": 0.8284,
      "step": 550
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.943070730304773e-05,
      "loss": 0.8349,
      "step": 600
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.7203035354614258,
      "eval_runtime": 2.0613,
      "eval_samples_per_second": 568.098,
      "eval_steps_per_second": 17.95,
      "step": 613
    },
    {
      "epoch": 1.06,
      "learning_rate": 4.914318573893042e-05,
      "loss": 0.8284,
      "step": 650
    },
    {
      "epoch": 1.14,
      "learning_rate": 4.8855664174813115e-05,
      "loss": 0.8152,
      "step": 700
    },
    {
      "epoch": 1.22,
      "learning_rate": 4.856814261069581e-05,
      "loss": 0.8085,
      "step": 750
    },
    {
      "epoch": 1.31,
      "learning_rate": 4.8280621046578495e-05,
      "loss": 0.8156,
      "step": 800
    },
    {
      "epoch": 1.39,
      "learning_rate": 4.799309948246118e-05,
      "loss": 0.7773,
      "step": 850
    },
    {
      "epoch": 1.47,
      "learning_rate": 4.770557791834388e-05,
      "loss": 0.7913,
      "step": 900
    },
    {
      "epoch": 1.55,
      "learning_rate": 4.741805635422657e-05,
      "loss": 0.7787,
      "step": 950
    },
    {
      "epoch": 1.63,
      "learning_rate": 4.713053479010926e-05,
      "loss": 0.7589,
      "step": 1000
    },
    {
      "epoch": 1.71,
      "learning_rate": 4.684301322599195e-05,
      "loss": 0.7671,
      "step": 1050
    },
    {
      "epoch": 1.79,
      "learning_rate": 4.655549166187464e-05,
      "loss": 0.7461,
      "step": 1100
    },
    {
      "epoch": 1.88,
      "learning_rate": 4.6267970097757336e-05,
      "loss": 0.7469,
      "step": 1150
    },
    {
      "epoch": 1.96,
      "learning_rate": 4.598044853364002e-05,
      "loss": 0.743,
      "step": 1200
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.6314801573753357,
      "eval_runtime": 2.0735,
      "eval_samples_per_second": 564.759,
      "eval_steps_per_second": 17.845,
      "step": 1226
    },
    {
      "epoch": 2.04,
      "learning_rate": 4.5692926969522716e-05,
      "loss": 0.7375,
      "step": 1250
    },
    {
      "epoch": 2.12,
      "learning_rate": 4.540540540540541e-05,
      "loss": 0.7342,
      "step": 1300
    },
    {
      "epoch": 2.2,
      "learning_rate": 4.51178838412881e-05,
      "loss": 0.7308,
      "step": 1350
    },
    {
      "epoch": 2.28,
      "learning_rate": 4.483036227717079e-05,
      "loss": 0.7157,
      "step": 1400
    },
    {
      "epoch": 2.37,
      "learning_rate": 4.454284071305348e-05,
      "loss": 0.7032,
      "step": 1450
    },
    {
      "epoch": 2.45,
      "learning_rate": 4.425531914893617e-05,
      "loss": 0.7114,
      "step": 1500
    },
    {
      "epoch": 2.53,
      "learning_rate": 4.396779758481886e-05,
      "loss": 0.7192,
      "step": 1550
    },
    {
      "epoch": 2.61,
      "learning_rate": 4.3680276020701557e-05,
      "loss": 0.7132,
      "step": 1600
    },
    {
      "epoch": 2.69,
      "learning_rate": 4.339275445658424e-05,
      "loss": 0.7106,
      "step": 1650
    },
    {
      "epoch": 2.77,
      "learning_rate": 4.310523289246694e-05,
      "loss": 0.6874,
      "step": 1700
    },
    {
      "epoch": 2.85,
      "learning_rate": 4.281771132834963e-05,
      "loss": 0.6983,
      "step": 1750
    },
    {
      "epoch": 2.94,
      "learning_rate": 4.253018976423232e-05,
      "loss": 0.6989,
      "step": 1800
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.5994039177894592,
      "eval_runtime": 2.0675,
      "eval_samples_per_second": 566.385,
      "eval_steps_per_second": 17.896,
      "step": 1839
    }
  ],
  "logging_steps": 50,
  "max_steps": 9195,
  "num_train_epochs": 15,
  "save_steps": 500,
  "total_flos": 3058064064249856.0,
  "trial_name": null,
  "trial_params": null
}