{
  "best_metric": 0.84062260389328,
  "best_model_checkpoint": "./outputs/checkpoint-200",
  "epoch": 37.086092715231786,
  "eval_steps": 100,
  "global_step": 700,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 5.298013245033113,
      "grad_norm": 0.5431037545204163,
      "learning_rate": 0.00017877094972067038,
      "loss": 1.1319,
      "step": 100
    },
    {
      "epoch": 5.298013245033113,
      "eval_loss": 0.8948965072631836,
      "eval_runtime": 27.5488,
      "eval_samples_per_second": 1.416,
      "eval_steps_per_second": 0.181,
      "step": 100
    },
    {
      "epoch": 10.596026490066226,
      "grad_norm": 0.5546338558197021,
      "learning_rate": 0.00015642458100558658,
      "loss": 0.2815,
      "step": 200
    },
    {
      "epoch": 10.596026490066226,
      "eval_loss": 0.84062260389328,
      "eval_runtime": 27.5134,
      "eval_samples_per_second": 1.417,
      "eval_steps_per_second": 0.182,
      "step": 200
    },
    {
      "epoch": 15.894039735099337,
      "grad_norm": 0.4460119903087616,
      "learning_rate": 0.0001340782122905028,
      "loss": 0.08,
      "step": 300
    },
    {
      "epoch": 15.894039735099337,
      "eval_loss": 0.9808233380317688,
      "eval_runtime": 27.4997,
      "eval_samples_per_second": 1.418,
      "eval_steps_per_second": 0.182,
      "step": 300
    },
    {
      "epoch": 21.192052980132452,
      "grad_norm": 0.12078167498111725,
      "learning_rate": 0.000111731843575419,
      "loss": 0.0224,
      "step": 400
    },
    {
      "epoch": 21.192052980132452,
      "eval_loss": 1.124197006225586,
      "eval_runtime": 27.5333,
      "eval_samples_per_second": 1.416,
      "eval_steps_per_second": 0.182,
      "step": 400
    },
    {
      "epoch": 26.490066225165563,
      "grad_norm": 0.1255040168762207,
      "learning_rate": 8.938547486033519e-05,
      "loss": 0.0078,
      "step": 500
    },
    {
      "epoch": 26.490066225165563,
      "eval_loss": 1.201127052307129,
      "eval_runtime": 27.5306,
      "eval_samples_per_second": 1.417,
      "eval_steps_per_second": 0.182,
      "step": 500
    },
    {
      "epoch": 31.788079470198674,
      "grad_norm": 0.07347619533538818,
      "learning_rate": 6.70391061452514e-05,
      "loss": 0.0033,
      "step": 600
    },
    {
      "epoch": 31.788079470198674,
      "eval_loss": 1.2421127557754517,
      "eval_runtime": 27.5182,
      "eval_samples_per_second": 1.417,
      "eval_steps_per_second": 0.182,
      "step": 600
    },
    {
      "epoch": 37.086092715231786,
      "grad_norm": 0.018830962479114532,
      "learning_rate": 4.4692737430167594e-05,
      "loss": 0.0022,
      "step": 700
    },
    {
      "epoch": 37.086092715231786,
      "eval_loss": 1.2676050662994385,
      "eval_runtime": 27.4982,
      "eval_samples_per_second": 1.418,
      "eval_steps_per_second": 0.182,
      "step": 700
    }
  ],
  "logging_steps": 100,
  "max_steps": 900,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 50,
  "save_steps": 100,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0001
      },
      "attributes": {
        "early_stopping_patience_counter": 5
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.0386421969846272e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}