{
  "best_metric": 0.37123164534568787,
  "best_model_checkpoint": "bert_uncased_L-2_H-512_A-8_sst2/checkpoint-264",
  "epoch": 6.0,
  "eval_steps": 500,
  "global_step": 1584,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 5.751178741455078,
      "learning_rate": 4.9e-05,
      "loss": 0.3689,
      "step": 264
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.838302752293578,
      "eval_loss": 0.37123164534568787,
      "eval_runtime": 0.3197,
      "eval_samples_per_second": 2727.219,
      "eval_steps_per_second": 12.51,
      "step": 264
    },
    {
      "epoch": 2.0,
      "grad_norm": 12.265923500061035,
      "learning_rate": 4.8e-05,
      "loss": 0.2315,
      "step": 528
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.8543577981651376,
      "eval_loss": 0.3763270378112793,
      "eval_runtime": 0.3183,
      "eval_samples_per_second": 2739.665,
      "eval_steps_per_second": 12.567,
      "step": 528
    },
    {
      "epoch": 3.0,
      "grad_norm": 5.411698818206787,
      "learning_rate": 4.7e-05,
      "loss": 0.176,
      "step": 792
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.8623853211009175,
      "eval_loss": 0.38422834873199463,
      "eval_runtime": 0.3272,
      "eval_samples_per_second": 2665.292,
      "eval_steps_per_second": 12.226,
      "step": 792
    },
    {
      "epoch": 4.0,
      "grad_norm": 10.302680969238281,
      "learning_rate": 4.600000000000001e-05,
      "loss": 0.141,
      "step": 1056
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.8589449541284404,
      "eval_loss": 0.3841046094894409,
      "eval_runtime": 0.3231,
      "eval_samples_per_second": 2698.567,
      "eval_steps_per_second": 12.379,
      "step": 1056
    },
    {
      "epoch": 5.0,
      "grad_norm": 1.4045413732528687,
      "learning_rate": 4.5e-05,
      "loss": 0.116,
      "step": 1320
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.8635321100917431,
      "eval_loss": 0.41641682386398315,
      "eval_runtime": 0.3218,
      "eval_samples_per_second": 2709.728,
      "eval_steps_per_second": 12.43,
      "step": 1320
    },
    {
      "epoch": 6.0,
      "grad_norm": 7.961500644683838,
      "learning_rate": 4.4000000000000006e-05,
      "loss": 0.0986,
      "step": 1584
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.8681192660550459,
      "eval_loss": 0.40349265933036804,
      "eval_runtime": 0.3261,
      "eval_samples_per_second": 2674.37,
      "eval_steps_per_second": 12.268,
      "step": 1584
    },
    {
      "epoch": 6.0,
      "step": 1584,
      "total_flos": 4077596200790016.0,
      "train_loss": 0.18866232067647606,
      "train_runtime": 201.2162,
      "train_samples_per_second": 16735.482,
      "train_steps_per_second": 65.601
    }
  ],
  "logging_steps": 1,
  "max_steps": 13200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 50,
  "save_steps": 500,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 5
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 4077596200790016.0,
  "train_batch_size": 256,
  "trial_name": null,
  "trial_params": null
}