File size: 3,136 Bytes

d976ade
 
 
710b635
d976ade
710b635
d976ade
 
 
 
 
 
 
 
 
 
 
 
 
 
3fd9077
 
 
d976ade
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3fd9077
 
 
d976ade
faf146b
 
 
 
 
 
 
 
 
 
3fd9077
faf146b
 
 
 
 
 
3fd9077
faf146b
 
 
 
 
 
3fd9077
 
 
 
faf146b
aedbb02
 
 
3fd9077
aedbb02
3fd9077
aedbb02
 
 
 
3fd9077
aedbb02
3fd9077
aedbb02
 
 
 
3fd9077
aedbb02
3fd9077
aedbb02
 
 
 
3fd9077
 
 
 
aedbb02
710b635
 
 
 
 
 
 
d976ade
 
 
 
 
 
 
 
 
 
 
 
 
 
710b635
d976ade
 
 
 
710b635
d976ade

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.004311273981461522,
  "eval_steps": 3,
  "global_step": 10,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0004311273981461522,
      "grad_norm": NaN,
      "learning_rate": 0.0,
      "loss": 11.9398,
      "step": 1
    },
    {
      "epoch": 0.0004311273981461522,
      "eval_loss": 12.775936126708984,
      "eval_runtime": 33.8995,
      "eval_samples_per_second": 14.425,
      "eval_steps_per_second": 14.425,
      "step": 1
    },
    {
      "epoch": 0.0008622547962923044,
      "grad_norm": NaN,
      "learning_rate": 0.0,
      "loss": 12.5284,
      "step": 2
    },
    {
      "epoch": 0.0012933821944384565,
      "grad_norm": NaN,
      "learning_rate": 0.0,
      "loss": 13.1201,
      "step": 3
    },
    {
      "epoch": 0.0012933821944384565,
      "eval_loss": 12.775936126708984,
      "eval_runtime": 33.7393,
      "eval_samples_per_second": 14.493,
      "eval_steps_per_second": 14.493,
      "step": 3
    },
    {
      "epoch": 0.0017245095925846087,
      "grad_norm": NaN,
      "learning_rate": 0.0,
      "loss": 12.4958,
      "step": 4
    },
    {
      "epoch": 0.002155636990730761,
      "grad_norm": 15.573494911193848,
      "learning_rate": 2e-05,
      "loss": 11.6975,
      "step": 5
    },
    {
      "epoch": 0.002586764388876913,
      "grad_norm": 13.357664108276367,
      "learning_rate": 4e-05,
      "loss": 12.9256,
      "step": 6
    },
    {
      "epoch": 0.002586764388876913,
      "eval_loss": 12.67633056640625,
      "eval_runtime": 33.8853,
      "eval_samples_per_second": 14.431,
      "eval_steps_per_second": 14.431,
      "step": 6
    },
    {
      "epoch": 0.003017891787023065,
      "grad_norm": 11.505864143371582,
      "learning_rate": 6e-05,
      "loss": 13.1193,
      "step": 7
    },
    {
      "epoch": 0.0034490191851692174,
      "grad_norm": 15.953032493591309,
      "learning_rate": 8e-05,
      "loss": 11.2816,
      "step": 8
    },
    {
      "epoch": 0.0038801465833153696,
      "grad_norm": 18.366994857788086,
      "learning_rate": 0.0001,
      "loss": 11.6187,
      "step": 9
    },
    {
      "epoch": 0.0038801465833153696,
      "eval_loss": 9.702347755432129,
      "eval_runtime": 37.8232,
      "eval_samples_per_second": 12.929,
      "eval_steps_per_second": 12.929,
      "step": 9
    },
    {
      "epoch": 0.004311273981461522,
      "grad_norm": 21.4761905670166,
      "learning_rate": 0.00012,
      "loss": 10.1439,
      "step": 10
    }
  ],
  "logging_steps": 1,
  "max_steps": 10,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 3,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1849564248145920.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}