{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.0005617504142909305,
  "eval_steps": 3,
  "global_step": 10,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 5.6175041429093056e-05,
      "grad_norm": 0.540784478187561,
      "learning_rate": 2e-05,
      "loss": 44.3452,
      "step": 1
    },
    {
      "epoch": 5.6175041429093056e-05,
      "eval_loss": 11.083724021911621,
      "eval_runtime": 77.3911,
      "eval_samples_per_second": 96.859,
      "eval_steps_per_second": 48.429,
      "step": 1
    },
    {
      "epoch": 0.00011235008285818611,
      "grad_norm": 0.5260025262832642,
      "learning_rate": 4e-05,
      "loss": 44.3303,
      "step": 2
    },
    {
      "epoch": 0.00016852512428727916,
      "grad_norm": 0.5491377115249634,
      "learning_rate": 6e-05,
      "loss": 44.3439,
      "step": 3
    },
    {
      "epoch": 0.00016852512428727916,
      "eval_loss": 11.083571434020996,
      "eval_runtime": 29.9251,
      "eval_samples_per_second": 250.492,
      "eval_steps_per_second": 125.246,
      "step": 3
    },
    {
      "epoch": 0.00022470016571637222,
      "grad_norm": 0.5830107927322388,
      "learning_rate": 8e-05,
      "loss": 44.3392,
      "step": 4
    },
    {
      "epoch": 0.00028087520714546526,
      "grad_norm": 0.5074106454849243,
      "learning_rate": 0.0001,
      "loss": 44.3213,
      "step": 5
    },
    {
      "epoch": 0.0003370502485745583,
      "grad_norm": 0.48356565833091736,
      "learning_rate": 0.00012,
      "loss": 44.3512,
      "step": 6
    },
    {
      "epoch": 0.0003370502485745583,
      "eval_loss": 11.082391738891602,
      "eval_runtime": 24.8555,
      "eval_samples_per_second": 301.583,
      "eval_steps_per_second": 150.791,
      "step": 6
    },
    {
      "epoch": 0.0003932252900036514,
      "grad_norm": 0.4972425699234009,
      "learning_rate": 0.00014,
      "loss": 44.3123,
      "step": 7
    },
    {
      "epoch": 0.00044940033143274445,
      "grad_norm": 0.5303033590316772,
      "learning_rate": 0.00016,
      "loss": 44.3085,
      "step": 8
    },
    {
      "epoch": 0.0005055753728618375,
      "grad_norm": 0.5744194984436035,
      "learning_rate": 0.00018,
      "loss": 44.3066,
      "step": 9
    },
    {
      "epoch": 0.0005055753728618375,
      "eval_loss": 11.080731391906738,
      "eval_runtime": 24.3255,
      "eval_samples_per_second": 308.155,
      "eval_steps_per_second": 154.077,
      "step": 9
    },
    {
      "epoch": 0.0005617504142909305,
      "grad_norm": 0.5109258890151978,
      "learning_rate": 0.0002,
      "loss": 44.3196,
      "step": 10
    }
  ],
  "logging_steps": 1,
  "max_steps": 10,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 3,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 14942208000.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}