ErrorAI commited on
Commit
c904d10
·
verified ·
1 Parent(s): 8edc399

Training in progress, step 1344, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5c98c47e5b07176cb667209dc31cae2b245525d485fe03fc5bf2f804e85535a2
3
  size 125040
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a773dd90a5ec999c08fff1c10d613670fde44535e574c2e24490dc542eb38c71
3
  size 125040
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7023b7e72810e5c369370d08a0d87bf450a3c0c74333356d2cbf650e35b61769
3
  size 162868
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ef4b77d8947c11449f417c50b5f8b01f3c1e6706635775a53f39cad3b4e820e9
3
  size 162868
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3b07185ecd52602b4810b712c2813062f9a82658914b0f057e1f834435e6dfbf
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:39bc9595bb8bb56bed2b0dabebb8da4e5404ea29d40f3f75362270dd8297be36
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e590868ac814bf88a0330d1978c816c9d17d213b880dc9eca9c2ee0aed6e1c82
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:463032c4d55d0ec912965e262645f4cf323e9bf452edfe308ba59def68123cc6
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.09998016266613767,
5
  "eval_steps": 336,
6
- "global_step": 1008,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7095,6 +7095,2366 @@
7095
  "eval_samples_per_second": 373.472,
7096
  "eval_steps_per_second": 186.78,
7097
  "step": 1008
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7098
  }
7099
  ],
7100
  "logging_steps": 1,
@@ -7109,12 +9469,12 @@
7109
  "should_evaluate": false,
7110
  "should_log": false,
7111
  "should_save": true,
7112
- "should_training_stop": false
7113
  },
7114
  "attributes": {}
7115
  }
7116
  },
7117
- "total_flos": 9794296479744.0,
7118
  "train_batch_size": 2,
7119
  "trial_name": null,
7120
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.13330688355485024,
5
  "eval_steps": 336,
6
+ "global_step": 1344,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7095
  "eval_samples_per_second": 373.472,
7096
  "eval_steps_per_second": 186.78,
7097
  "step": 1008
7098
+ },
7099
+ {
7100
+ "epoch": 0.10007934933544932,
7101
+ "grad_norm": 1.9870927333831787,
7102
+ "learning_rate": 2.953954982296737e-05,
7103
+ "loss": 43.2664,
7104
+ "step": 1009
7105
+ },
7106
+ {
7107
+ "epoch": 0.10017853600476095,
7108
+ "grad_norm": 2.2823827266693115,
7109
+ "learning_rate": 2.9372633307082753e-05,
7110
+ "loss": 43.5852,
7111
+ "step": 1010
7112
+ },
7113
+ {
7114
+ "epoch": 0.1002777226740726,
7115
+ "grad_norm": 2.310875177383423,
7116
+ "learning_rate": 2.9206108497807504e-05,
7117
+ "loss": 43.2057,
7118
+ "step": 1011
7119
+ },
7120
+ {
7121
+ "epoch": 0.10037690934338425,
7122
+ "grad_norm": 1.931022047996521,
7123
+ "learning_rate": 2.9039976318705332e-05,
7124
+ "loss": 43.2191,
7125
+ "step": 1012
7126
+ },
7127
+ {
7128
+ "epoch": 0.10047609601269589,
7129
+ "grad_norm": 1.6527795791625977,
7130
+ "learning_rate": 2.8874237691162276e-05,
7131
+ "loss": 43.3522,
7132
+ "step": 1013
7133
+ },
7134
+ {
7135
+ "epoch": 0.10057528268200754,
7136
+ "grad_norm": 2.0286660194396973,
7137
+ "learning_rate": 2.8708893534381743e-05,
7138
+ "loss": 43.2444,
7139
+ "step": 1014
7140
+ },
7141
+ {
7142
+ "epoch": 0.10067446935131918,
7143
+ "grad_norm": 1.9672062397003174,
7144
+ "learning_rate": 2.854394476537937e-05,
7145
+ "loss": 43.376,
7146
+ "step": 1015
7147
+ },
7148
+ {
7149
+ "epoch": 0.10077365602063083,
7150
+ "grad_norm": 1.637162685394287,
7151
+ "learning_rate": 2.8379392298977913e-05,
7152
+ "loss": 43.2439,
7153
+ "step": 1016
7154
+ },
7155
+ {
7156
+ "epoch": 0.10087284268994247,
7157
+ "grad_norm": 1.6137415170669556,
7158
+ "learning_rate": 2.82152370478022e-05,
7159
+ "loss": 43.5097,
7160
+ "step": 1017
7161
+ },
7162
+ {
7163
+ "epoch": 0.10097202935925412,
7164
+ "grad_norm": 1.843345046043396,
7165
+ "learning_rate": 2.805147992227408e-05,
7166
+ "loss": 43.0885,
7167
+ "step": 1018
7168
+ },
7169
+ {
7170
+ "epoch": 0.10107121602856577,
7171
+ "grad_norm": 1.9704563617706299,
7172
+ "learning_rate": 2.7888121830607338e-05,
7173
+ "loss": 42.8543,
7174
+ "step": 1019
7175
+ },
7176
+ {
7177
+ "epoch": 0.1011704026978774,
7178
+ "grad_norm": 1.6276098489761353,
7179
+ "learning_rate": 2.772516367880269e-05,
7180
+ "loss": 43.5096,
7181
+ "step": 1020
7182
+ },
7183
+ {
7184
+ "epoch": 0.10126958936718905,
7185
+ "grad_norm": 1.7181447744369507,
7186
+ "learning_rate": 2.756260637064275e-05,
7187
+ "loss": 43.2222,
7188
+ "step": 1021
7189
+ },
7190
+ {
7191
+ "epoch": 0.1013687760365007,
7192
+ "grad_norm": 1.9936548471450806,
7193
+ "learning_rate": 2.7400450807686938e-05,
7194
+ "loss": 43.3956,
7195
+ "step": 1022
7196
+ },
7197
+ {
7198
+ "epoch": 0.10146796270581233,
7199
+ "grad_norm": 1.8743979930877686,
7200
+ "learning_rate": 2.7238697889266663e-05,
7201
+ "loss": 43.6184,
7202
+ "step": 1023
7203
+ },
7204
+ {
7205
+ "epoch": 0.10156714937512398,
7206
+ "grad_norm": 2.259053945541382,
7207
+ "learning_rate": 2.707734851248017e-05,
7208
+ "loss": 42.8417,
7209
+ "step": 1024
7210
+ },
7211
+ {
7212
+ "epoch": 0.10166633604443563,
7213
+ "grad_norm": 1.5487163066864014,
7214
+ "learning_rate": 2.691640357218759e-05,
7215
+ "loss": 43.383,
7216
+ "step": 1025
7217
+ },
7218
+ {
7219
+ "epoch": 0.10176552271374727,
7220
+ "grad_norm": 1.9318923950195312,
7221
+ "learning_rate": 2.675586396100611e-05,
7222
+ "loss": 43.3863,
7223
+ "step": 1026
7224
+ },
7225
+ {
7226
+ "epoch": 0.10186470938305892,
7227
+ "grad_norm": 2.267869710922241,
7228
+ "learning_rate": 2.6595730569304832e-05,
7229
+ "loss": 43.3701,
7230
+ "step": 1027
7231
+ },
7232
+ {
7233
+ "epoch": 0.10196389605237056,
7234
+ "grad_norm": 1.6812407970428467,
7235
+ "learning_rate": 2.6436004285199944e-05,
7236
+ "loss": 43.4373,
7237
+ "step": 1028
7238
+ },
7239
+ {
7240
+ "epoch": 0.1020630827216822,
7241
+ "grad_norm": 1.7962058782577515,
7242
+ "learning_rate": 2.6276685994549767e-05,
7243
+ "loss": 43.4106,
7244
+ "step": 1029
7245
+ },
7246
+ {
7247
+ "epoch": 0.10216226939099385,
7248
+ "grad_norm": 1.4576523303985596,
7249
+ "learning_rate": 2.611777658094987e-05,
7250
+ "loss": 43.4598,
7251
+ "step": 1030
7252
+ },
7253
+ {
7254
+ "epoch": 0.1022614560603055,
7255
+ "grad_norm": 1.8970755338668823,
7256
+ "learning_rate": 2.5959276925728137e-05,
7257
+ "loss": 43.3736,
7258
+ "step": 1031
7259
+ },
7260
+ {
7261
+ "epoch": 0.10236064272961715,
7262
+ "grad_norm": 1.794338345527649,
7263
+ "learning_rate": 2.5801187907939896e-05,
7264
+ "loss": 43.4462,
7265
+ "step": 1032
7266
+ },
7267
+ {
7268
+ "epoch": 0.10245982939892878,
7269
+ "grad_norm": 1.936357855796814,
7270
+ "learning_rate": 2.5643510404363002e-05,
7271
+ "loss": 43.3148,
7272
+ "step": 1033
7273
+ },
7274
+ {
7275
+ "epoch": 0.10255901606824043,
7276
+ "grad_norm": 2.669987916946411,
7277
+ "learning_rate": 2.5486245289493073e-05,
7278
+ "loss": 43.2047,
7279
+ "step": 1034
7280
+ },
7281
+ {
7282
+ "epoch": 0.10265820273755208,
7283
+ "grad_norm": 1.6874557733535767,
7284
+ "learning_rate": 2.5329393435538517e-05,
7285
+ "loss": 43.2445,
7286
+ "step": 1035
7287
+ },
7288
+ {
7289
+ "epoch": 0.10275738940686371,
7290
+ "grad_norm": 1.6236869096755981,
7291
+ "learning_rate": 2.51729557124158e-05,
7292
+ "loss": 43.3352,
7293
+ "step": 1036
7294
+ },
7295
+ {
7296
+ "epoch": 0.10285657607617536,
7297
+ "grad_norm": 1.7709388732910156,
7298
+ "learning_rate": 2.5016932987744546e-05,
7299
+ "loss": 43.3261,
7300
+ "step": 1037
7301
+ },
7302
+ {
7303
+ "epoch": 0.10295576274548701,
7304
+ "grad_norm": 1.753903865814209,
7305
+ "learning_rate": 2.4861326126842777e-05,
7306
+ "loss": 43.294,
7307
+ "step": 1038
7308
+ },
7309
+ {
7310
+ "epoch": 0.10305494941479865,
7311
+ "grad_norm": 1.6133686304092407,
7312
+ "learning_rate": 2.4706135992722068e-05,
7313
+ "loss": 43.0522,
7314
+ "step": 1039
7315
+ },
7316
+ {
7317
+ "epoch": 0.1031541360841103,
7318
+ "grad_norm": 2.254556179046631,
7319
+ "learning_rate": 2.455136344608281e-05,
7320
+ "loss": 43.017,
7321
+ "step": 1040
7322
+ },
7323
+ {
7324
+ "epoch": 0.10325332275342194,
7325
+ "grad_norm": 1.9643908739089966,
7326
+ "learning_rate": 2.4397009345309385e-05,
7327
+ "loss": 43.4109,
7328
+ "step": 1041
7329
+ },
7330
+ {
7331
+ "epoch": 0.10335250942273358,
7332
+ "grad_norm": 1.8825018405914307,
7333
+ "learning_rate": 2.424307454646546e-05,
7334
+ "loss": 43.196,
7335
+ "step": 1042
7336
+ },
7337
+ {
7338
+ "epoch": 0.10345169609204523,
7339
+ "grad_norm": 1.6520074605941772,
7340
+ "learning_rate": 2.408955990328917e-05,
7341
+ "loss": 43.2087,
7342
+ "step": 1043
7343
+ },
7344
+ {
7345
+ "epoch": 0.10355088276135688,
7346
+ "grad_norm": 1.7558956146240234,
7347
+ "learning_rate": 2.3936466267188483e-05,
7348
+ "loss": 43.3286,
7349
+ "step": 1044
7350
+ },
7351
+ {
7352
+ "epoch": 0.10365006943066851,
7353
+ "grad_norm": 1.7603009939193726,
7354
+ "learning_rate": 2.3783794487236365e-05,
7355
+ "loss": 43.2538,
7356
+ "step": 1045
7357
+ },
7358
+ {
7359
+ "epoch": 0.10374925609998016,
7360
+ "grad_norm": 2.2317631244659424,
7361
+ "learning_rate": 2.3631545410166146e-05,
7362
+ "loss": 43.3514,
7363
+ "step": 1046
7364
+ },
7365
+ {
7366
+ "epoch": 0.10384844276929181,
7367
+ "grad_norm": 2.053651809692383,
7368
+ "learning_rate": 2.34797198803668e-05,
7369
+ "loss": 43.0705,
7370
+ "step": 1047
7371
+ },
7372
+ {
7373
+ "epoch": 0.10394762943860344,
7374
+ "grad_norm": 2.12276029586792,
7375
+ "learning_rate": 2.3328318739878276e-05,
7376
+ "loss": 42.9517,
7377
+ "step": 1048
7378
+ },
7379
+ {
7380
+ "epoch": 0.1040468161079151,
7381
+ "grad_norm": 1.783549427986145,
7382
+ "learning_rate": 2.3177342828386795e-05,
7383
+ "loss": 43.3737,
7384
+ "step": 1049
7385
+ },
7386
+ {
7387
+ "epoch": 0.10414600277722674,
7388
+ "grad_norm": 1.8569499254226685,
7389
+ "learning_rate": 2.3026792983220225e-05,
7390
+ "loss": 43.4023,
7391
+ "step": 1050
7392
+ },
7393
+ {
7394
+ "epoch": 0.10424518944653839,
7395
+ "grad_norm": 2.2283928394317627,
7396
+ "learning_rate": 2.287667003934343e-05,
7397
+ "loss": 42.8381,
7398
+ "step": 1051
7399
+ },
7400
+ {
7401
+ "epoch": 0.10434437611585003,
7402
+ "grad_norm": 1.8262372016906738,
7403
+ "learning_rate": 2.2726974829353608e-05,
7404
+ "loss": 43.2903,
7405
+ "step": 1052
7406
+ },
7407
+ {
7408
+ "epoch": 0.10444356278516168,
7409
+ "grad_norm": 1.8618842363357544,
7410
+ "learning_rate": 2.2577708183475777e-05,
7411
+ "loss": 43.7201,
7412
+ "step": 1053
7413
+ },
7414
+ {
7415
+ "epoch": 0.10454274945447332,
7416
+ "grad_norm": 1.8243770599365234,
7417
+ "learning_rate": 2.242887092955801e-05,
7418
+ "loss": 43.333,
7419
+ "step": 1054
7420
+ },
7421
+ {
7422
+ "epoch": 0.10464193612378496,
7423
+ "grad_norm": 1.8795287609100342,
7424
+ "learning_rate": 2.2280463893066972e-05,
7425
+ "loss": 43.308,
7426
+ "step": 1055
7427
+ },
7428
+ {
7429
+ "epoch": 0.10474112279309661,
7430
+ "grad_norm": 2.1010794639587402,
7431
+ "learning_rate": 2.2132487897083277e-05,
7432
+ "loss": 43.4144,
7433
+ "step": 1056
7434
+ },
7435
+ {
7436
+ "epoch": 0.10484030946240826,
7437
+ "grad_norm": 1.9312688112258911,
7438
+ "learning_rate": 2.1984943762296996e-05,
7439
+ "loss": 43.1422,
7440
+ "step": 1057
7441
+ },
7442
+ {
7443
+ "epoch": 0.10493949613171989,
7444
+ "grad_norm": 1.7748469114303589,
7445
+ "learning_rate": 2.1837832307002938e-05,
7446
+ "loss": 43.2787,
7447
+ "step": 1058
7448
+ },
7449
+ {
7450
+ "epoch": 0.10503868280103154,
7451
+ "grad_norm": 1.7004989385604858,
7452
+ "learning_rate": 2.1691154347096342e-05,
7453
+ "loss": 43.096,
7454
+ "step": 1059
7455
+ },
7456
+ {
7457
+ "epoch": 0.10513786947034319,
7458
+ "grad_norm": 1.8392539024353027,
7459
+ "learning_rate": 2.1544910696068198e-05,
7460
+ "loss": 43.2165,
7461
+ "step": 1060
7462
+ },
7463
+ {
7464
+ "epoch": 0.10523705613965482,
7465
+ "grad_norm": 2.098799228668213,
7466
+ "learning_rate": 2.1399102165000773e-05,
7467
+ "loss": 43.3958,
7468
+ "step": 1061
7469
+ },
7470
+ {
7471
+ "epoch": 0.10533624280896647,
7472
+ "grad_norm": 2.455333709716797,
7473
+ "learning_rate": 2.1253729562563107e-05,
7474
+ "loss": 43.1705,
7475
+ "step": 1062
7476
+ },
7477
+ {
7478
+ "epoch": 0.10543542947827812,
7479
+ "grad_norm": 1.9788404703140259,
7480
+ "learning_rate": 2.1108793695006547e-05,
7481
+ "loss": 43.5332,
7482
+ "step": 1063
7483
+ },
7484
+ {
7485
+ "epoch": 0.10553461614758976,
7486
+ "grad_norm": 1.6264801025390625,
7487
+ "learning_rate": 2.0964295366160246e-05,
7488
+ "loss": 43.3326,
7489
+ "step": 1064
7490
+ },
7491
+ {
7492
+ "epoch": 0.1056338028169014,
7493
+ "grad_norm": 1.900612711906433,
7494
+ "learning_rate": 2.0820235377426734e-05,
7495
+ "loss": 43.3417,
7496
+ "step": 1065
7497
+ },
7498
+ {
7499
+ "epoch": 0.10573298948621306,
7500
+ "grad_norm": 1.8699355125427246,
7501
+ "learning_rate": 2.0676614527777494e-05,
7502
+ "loss": 43.4211,
7503
+ "step": 1066
7504
+ },
7505
+ {
7506
+ "epoch": 0.1058321761555247,
7507
+ "grad_norm": 1.7466013431549072,
7508
+ "learning_rate": 2.0533433613748455e-05,
7509
+ "loss": 43.3733,
7510
+ "step": 1067
7511
+ },
7512
+ {
7513
+ "epoch": 0.10593136282483634,
7514
+ "grad_norm": 1.6973024606704712,
7515
+ "learning_rate": 2.0390693429435627e-05,
7516
+ "loss": 43.3783,
7517
+ "step": 1068
7518
+ },
7519
+ {
7520
+ "epoch": 0.10603054949414799,
7521
+ "grad_norm": 1.5866848230361938,
7522
+ "learning_rate": 2.0248394766490686e-05,
7523
+ "loss": 43.2797,
7524
+ "step": 1069
7525
+ },
7526
+ {
7527
+ "epoch": 0.10612973616345964,
7528
+ "grad_norm": 1.7410883903503418,
7529
+ "learning_rate": 2.0106538414116592e-05,
7530
+ "loss": 43.4987,
7531
+ "step": 1070
7532
+ },
7533
+ {
7534
+ "epoch": 0.10622892283277127,
7535
+ "grad_norm": 1.955462098121643,
7536
+ "learning_rate": 1.9965125159063214e-05,
7537
+ "loss": 43.3663,
7538
+ "step": 1071
7539
+ },
7540
+ {
7541
+ "epoch": 0.10632810950208292,
7542
+ "grad_norm": 2.3684256076812744,
7543
+ "learning_rate": 1.9824155785622943e-05,
7544
+ "loss": 43.409,
7545
+ "step": 1072
7546
+ },
7547
+ {
7548
+ "epoch": 0.10642729617139457,
7549
+ "grad_norm": 2.127676486968994,
7550
+ "learning_rate": 1.968363107562635e-05,
7551
+ "loss": 43.169,
7552
+ "step": 1073
7553
+ },
7554
+ {
7555
+ "epoch": 0.1065264828407062,
7556
+ "grad_norm": 2.0121634006500244,
7557
+ "learning_rate": 1.9543551808437897e-05,
7558
+ "loss": 43.7038,
7559
+ "step": 1074
7560
+ },
7561
+ {
7562
+ "epoch": 0.10662566951001785,
7563
+ "grad_norm": 1.790136456489563,
7564
+ "learning_rate": 1.940391876095152e-05,
7565
+ "loss": 43.3814,
7566
+ "step": 1075
7567
+ },
7568
+ {
7569
+ "epoch": 0.1067248561793295,
7570
+ "grad_norm": 1.8395569324493408,
7571
+ "learning_rate": 1.9264732707586418e-05,
7572
+ "loss": 43.3354,
7573
+ "step": 1076
7574
+ },
7575
+ {
7576
+ "epoch": 0.10682404284864114,
7577
+ "grad_norm": 2.311129093170166,
7578
+ "learning_rate": 1.912599442028271e-05,
7579
+ "loss": 43.452,
7580
+ "step": 1077
7581
+ },
7582
+ {
7583
+ "epoch": 0.10692322951795279,
7584
+ "grad_norm": 1.9188132286071777,
7585
+ "learning_rate": 1.898770466849712e-05,
7586
+ "loss": 43.106,
7587
+ "step": 1078
7588
+ },
7589
+ {
7590
+ "epoch": 0.10702241618726444,
7591
+ "grad_norm": 1.7512807846069336,
7592
+ "learning_rate": 1.8849864219198742e-05,
7593
+ "loss": 43.4099,
7594
+ "step": 1079
7595
+ },
7596
+ {
7597
+ "epoch": 0.10712160285657607,
7598
+ "grad_norm": 1.848227620124817,
7599
+ "learning_rate": 1.8712473836864907e-05,
7600
+ "loss": 43.5022,
7601
+ "step": 1080
7602
+ },
7603
+ {
7604
+ "epoch": 0.10722078952588772,
7605
+ "grad_norm": 1.96405827999115,
7606
+ "learning_rate": 1.8575534283476704e-05,
7607
+ "loss": 43.3143,
7608
+ "step": 1081
7609
+ },
7610
+ {
7611
+ "epoch": 0.10731997619519937,
7612
+ "grad_norm": 1.9698858261108398,
7613
+ "learning_rate": 1.843904631851492e-05,
7614
+ "loss": 43.4066,
7615
+ "step": 1082
7616
+ },
7617
+ {
7618
+ "epoch": 0.107419162864511,
7619
+ "grad_norm": 1.7229509353637695,
7620
+ "learning_rate": 1.8303010698955804e-05,
7621
+ "loss": 43.3104,
7622
+ "step": 1083
7623
+ },
7624
+ {
7625
+ "epoch": 0.10751834953382265,
7626
+ "grad_norm": 2.071288824081421,
7627
+ "learning_rate": 1.816742817926682e-05,
7628
+ "loss": 43.4899,
7629
+ "step": 1084
7630
+ },
7631
+ {
7632
+ "epoch": 0.1076175362031343,
7633
+ "grad_norm": 1.8627254962921143,
7634
+ "learning_rate": 1.8032299511402516e-05,
7635
+ "loss": 43.1619,
7636
+ "step": 1085
7637
+ },
7638
+ {
7639
+ "epoch": 0.10771672287244595,
7640
+ "grad_norm": 2.1135594844818115,
7641
+ "learning_rate": 1.7897625444800316e-05,
7642
+ "loss": 43.3926,
7643
+ "step": 1086
7644
+ },
7645
+ {
7646
+ "epoch": 0.10781590954175758,
7647
+ "grad_norm": 1.622941493988037,
7648
+ "learning_rate": 1.7763406726376397e-05,
7649
+ "loss": 43.6352,
7650
+ "step": 1087
7651
+ },
7652
+ {
7653
+ "epoch": 0.10791509621106923,
7654
+ "grad_norm": 1.9797368049621582,
7655
+ "learning_rate": 1.7629644100521515e-05,
7656
+ "loss": 43.3592,
7657
+ "step": 1088
7658
+ },
7659
+ {
7660
+ "epoch": 0.10801428288038088,
7661
+ "grad_norm": 1.9228143692016602,
7662
+ "learning_rate": 1.7496338309096893e-05,
7663
+ "loss": 42.8601,
7664
+ "step": 1089
7665
+ },
7666
+ {
7667
+ "epoch": 0.10811346954969252,
7668
+ "grad_norm": 2.1188180446624756,
7669
+ "learning_rate": 1.736349009143009e-05,
7670
+ "loss": 43.4786,
7671
+ "step": 1090
7672
+ },
7673
+ {
7674
+ "epoch": 0.10821265621900417,
7675
+ "grad_norm": 1.9048572778701782,
7676
+ "learning_rate": 1.7231100184310956e-05,
7677
+ "loss": 43.4806,
7678
+ "step": 1091
7679
+ },
7680
+ {
7681
+ "epoch": 0.10831184288831582,
7682
+ "grad_norm": 1.9966034889221191,
7683
+ "learning_rate": 1.709916932198745e-05,
7684
+ "loss": 43.3312,
7685
+ "step": 1092
7686
+ },
7687
+ {
7688
+ "epoch": 0.10841102955762745,
7689
+ "grad_norm": 2.0377163887023926,
7690
+ "learning_rate": 1.6967698236161654e-05,
7691
+ "loss": 43.3547,
7692
+ "step": 1093
7693
+ },
7694
+ {
7695
+ "epoch": 0.1085102162269391,
7696
+ "grad_norm": 1.6983298063278198,
7697
+ "learning_rate": 1.6836687655985685e-05,
7698
+ "loss": 43.2747,
7699
+ "step": 1094
7700
+ },
7701
+ {
7702
+ "epoch": 0.10860940289625075,
7703
+ "grad_norm": 1.8522446155548096,
7704
+ "learning_rate": 1.670613830805763e-05,
7705
+ "loss": 43.2941,
7706
+ "step": 1095
7707
+ },
7708
+ {
7709
+ "epoch": 0.10870858956556238,
7710
+ "grad_norm": 1.81473970413208,
7711
+ "learning_rate": 1.657605091641754e-05,
7712
+ "loss": 43.2709,
7713
+ "step": 1096
7714
+ },
7715
+ {
7716
+ "epoch": 0.10880777623487403,
7717
+ "grad_norm": 2.190338373184204,
7718
+ "learning_rate": 1.644642620254342e-05,
7719
+ "loss": 43.4925,
7720
+ "step": 1097
7721
+ },
7722
+ {
7723
+ "epoch": 0.10890696290418568,
7724
+ "grad_norm": 1.8411086797714233,
7725
+ "learning_rate": 1.6317264885347204e-05,
7726
+ "loss": 43.1798,
7727
+ "step": 1098
7728
+ },
7729
+ {
7730
+ "epoch": 0.10900614957349732,
7731
+ "grad_norm": 1.670372724533081,
7732
+ "learning_rate": 1.6188567681170797e-05,
7733
+ "loss": 43.2955,
7734
+ "step": 1099
7735
+ },
7736
+ {
7737
+ "epoch": 0.10910533624280896,
7738
+ "grad_norm": 1.979124665260315,
7739
+ "learning_rate": 1.606033530378206e-05,
7740
+ "loss": 43.2949,
7741
+ "step": 1100
7742
+ },
7743
+ {
7744
+ "epoch": 0.10920452291212061,
7745
+ "grad_norm": 1.7523725032806396,
7746
+ "learning_rate": 1.5932568464370902e-05,
7747
+ "loss": 43.5557,
7748
+ "step": 1101
7749
+ },
7750
+ {
7751
+ "epoch": 0.10930370958143226,
7752
+ "grad_norm": 1.7378349304199219,
7753
+ "learning_rate": 1.5805267871545294e-05,
7754
+ "loss": 43.4509,
7755
+ "step": 1102
7756
+ },
7757
+ {
7758
+ "epoch": 0.1094028962507439,
7759
+ "grad_norm": 2.0274529457092285,
7760
+ "learning_rate": 1.5678434231327366e-05,
7761
+ "loss": 43.4727,
7762
+ "step": 1103
7763
+ },
7764
+ {
7765
+ "epoch": 0.10950208292005555,
7766
+ "grad_norm": 1.896174430847168,
7767
+ "learning_rate": 1.5552068247149474e-05,
7768
+ "loss": 43.5295,
7769
+ "step": 1104
7770
+ },
7771
+ {
7772
+ "epoch": 0.1096012695893672,
7773
+ "grad_norm": 1.82111656665802,
7774
+ "learning_rate": 1.542617061985031e-05,
7775
+ "loss": 43.1427,
7776
+ "step": 1105
7777
+ },
7778
+ {
7779
+ "epoch": 0.10970045625867883,
7780
+ "grad_norm": 1.9371390342712402,
7781
+ "learning_rate": 1.530074204767099e-05,
7782
+ "loss": 43.5117,
7783
+ "step": 1106
7784
+ },
7785
+ {
7786
+ "epoch": 0.10979964292799048,
7787
+ "grad_norm": 2.0274558067321777,
7788
+ "learning_rate": 1.5175783226251262e-05,
7789
+ "loss": 43.4561,
7790
+ "step": 1107
7791
+ },
7792
+ {
7793
+ "epoch": 0.10989882959730213,
7794
+ "grad_norm": 1.9903157949447632,
7795
+ "learning_rate": 1.505129484862553e-05,
7796
+ "loss": 43.1376,
7797
+ "step": 1108
7798
+ },
7799
+ {
7800
+ "epoch": 0.10999801626661376,
7801
+ "grad_norm": 1.8779850006103516,
7802
+ "learning_rate": 1.4927277605219082e-05,
7803
+ "loss": 43.3613,
7804
+ "step": 1109
7805
+ },
7806
+ {
7807
+ "epoch": 0.11009720293592541,
7808
+ "grad_norm": 1.7402894496917725,
7809
+ "learning_rate": 1.4803732183844265e-05,
7810
+ "loss": 43.1594,
7811
+ "step": 1110
7812
+ },
7813
+ {
7814
+ "epoch": 0.11019638960523706,
7815
+ "grad_norm": 1.634901523590088,
7816
+ "learning_rate": 1.4680659269696618e-05,
7817
+ "loss": 43.5898,
7818
+ "step": 1111
7819
+ },
7820
+ {
7821
+ "epoch": 0.1102955762745487,
7822
+ "grad_norm": 1.8809635639190674,
7823
+ "learning_rate": 1.4558059545351143e-05,
7824
+ "loss": 43.1923,
7825
+ "step": 1112
7826
+ },
7827
+ {
7828
+ "epoch": 0.11039476294386034,
7829
+ "grad_norm": 1.738985538482666,
7830
+ "learning_rate": 1.4435933690758486e-05,
7831
+ "loss": 43.4172,
7832
+ "step": 1113
7833
+ },
7834
+ {
7835
+ "epoch": 0.110493949613172,
7836
+ "grad_norm": 1.791961669921875,
7837
+ "learning_rate": 1.4314282383241096e-05,
7838
+ "loss": 43.2874,
7839
+ "step": 1114
7840
+ },
7841
+ {
7842
+ "epoch": 0.11059313628248363,
7843
+ "grad_norm": 1.6221996545791626,
7844
+ "learning_rate": 1.419310629748961e-05,
7845
+ "loss": 43.275,
7846
+ "step": 1115
7847
+ },
7848
+ {
7849
+ "epoch": 0.11069232295179528,
7850
+ "grad_norm": 1.9267237186431885,
7851
+ "learning_rate": 1.407240610555901e-05,
7852
+ "loss": 43.1306,
7853
+ "step": 1116
7854
+ },
7855
+ {
7856
+ "epoch": 0.11079150962110693,
7857
+ "grad_norm": 2.018815517425537,
7858
+ "learning_rate": 1.3952182476864939e-05,
7859
+ "loss": 43.222,
7860
+ "step": 1117
7861
+ },
7862
+ {
7863
+ "epoch": 0.11089069629041856,
7864
+ "grad_norm": 1.6628422737121582,
7865
+ "learning_rate": 1.3832436078179923e-05,
7866
+ "loss": 43.1854,
7867
+ "step": 1118
7868
+ },
7869
+ {
7870
+ "epoch": 0.11098988295973021,
7871
+ "grad_norm": 2.1625983715057373,
7872
+ "learning_rate": 1.3713167573629781e-05,
7873
+ "loss": 43.047,
7874
+ "step": 1119
7875
+ },
7876
+ {
7877
+ "epoch": 0.11108906962904186,
7878
+ "grad_norm": 1.7224620580673218,
7879
+ "learning_rate": 1.3594377624689814e-05,
7880
+ "loss": 43.226,
7881
+ "step": 1120
7882
+ },
7883
+ {
7884
+ "epoch": 0.11118825629835351,
7885
+ "grad_norm": 1.8315547704696655,
7886
+ "learning_rate": 1.3476066890181305e-05,
7887
+ "loss": 43.2169,
7888
+ "step": 1121
7889
+ },
7890
+ {
7891
+ "epoch": 0.11128744296766514,
7892
+ "grad_norm": 1.6890857219696045,
7893
+ "learning_rate": 1.3358236026267678e-05,
7894
+ "loss": 43.2413,
7895
+ "step": 1122
7896
+ },
7897
+ {
7898
+ "epoch": 0.11138662963697679,
7899
+ "grad_norm": 1.8838977813720703,
7900
+ "learning_rate": 1.3240885686450965e-05,
7901
+ "loss": 43.5385,
7902
+ "step": 1123
7903
+ },
7904
+ {
7905
+ "epoch": 0.11148581630628844,
7906
+ "grad_norm": 1.9935252666473389,
7907
+ "learning_rate": 1.3124016521568183e-05,
7908
+ "loss": 43.0831,
7909
+ "step": 1124
7910
+ },
7911
+ {
7912
+ "epoch": 0.11158500297560008,
7913
+ "grad_norm": 1.8333817720413208,
7914
+ "learning_rate": 1.3007629179787673e-05,
7915
+ "loss": 42.854,
7916
+ "step": 1125
7917
+ },
7918
+ {
7919
+ "epoch": 0.11168418964491172,
7920
+ "grad_norm": 2.0609686374664307,
7921
+ "learning_rate": 1.2891724306605569e-05,
7922
+ "loss": 43.2198,
7923
+ "step": 1126
7924
+ },
7925
+ {
7926
+ "epoch": 0.11178337631422337,
7927
+ "grad_norm": 2.1163010597229004,
7928
+ "learning_rate": 1.2776302544842156e-05,
7929
+ "loss": 42.968,
7930
+ "step": 1127
7931
+ },
7932
+ {
7933
+ "epoch": 0.11188256298353501,
7934
+ "grad_norm": 1.8727991580963135,
7935
+ "learning_rate": 1.2661364534638354e-05,
7936
+ "loss": 43.5682,
7937
+ "step": 1128
7938
+ },
7939
+ {
7940
+ "epoch": 0.11198174965284666,
7941
+ "grad_norm": 2.2760705947875977,
7942
+ "learning_rate": 1.2546910913452147e-05,
7943
+ "loss": 43.3951,
7944
+ "step": 1129
7945
+ },
7946
+ {
7947
+ "epoch": 0.1120809363221583,
7948
+ "grad_norm": 1.8465425968170166,
7949
+ "learning_rate": 1.2432942316055029e-05,
7950
+ "loss": 43.4089,
7951
+ "step": 1130
7952
+ },
7953
+ {
7954
+ "epoch": 0.11218012299146994,
7955
+ "grad_norm": 1.8914663791656494,
7956
+ "learning_rate": 1.2319459374528509e-05,
7957
+ "loss": 43.4019,
7958
+ "step": 1131
7959
+ },
7960
+ {
7961
+ "epoch": 0.11227930966078159,
7962
+ "grad_norm": 1.7220094203948975,
7963
+ "learning_rate": 1.2206462718260614e-05,
7964
+ "loss": 43.4125,
7965
+ "step": 1132
7966
+ },
7967
+ {
7968
+ "epoch": 0.11237849633009324,
7969
+ "grad_norm": 2.153808832168579,
7970
+ "learning_rate": 1.2093952973942401e-05,
7971
+ "loss": 43.0447,
7972
+ "step": 1133
7973
+ },
7974
+ {
7975
+ "epoch": 0.11247768299940487,
7976
+ "grad_norm": 1.898477554321289,
7977
+ "learning_rate": 1.1981930765564353e-05,
7978
+ "loss": 43.0263,
7979
+ "step": 1134
7980
+ },
7981
+ {
7982
+ "epoch": 0.11257686966871652,
7983
+ "grad_norm": 1.7653738260269165,
7984
+ "learning_rate": 1.187039671441319e-05,
7985
+ "loss": 43.2525,
7986
+ "step": 1135
7987
+ },
7988
+ {
7989
+ "epoch": 0.11267605633802817,
7990
+ "grad_norm": 2.1159472465515137,
7991
+ "learning_rate": 1.1759351439068157e-05,
7992
+ "loss": 42.8145,
7993
+ "step": 1136
7994
+ },
7995
+ {
7996
+ "epoch": 0.11277524300733982,
7997
+ "grad_norm": 2.21384334564209,
7998
+ "learning_rate": 1.1648795555397719e-05,
7999
+ "loss": 43.5621,
8000
+ "step": 1137
8001
+ },
8002
+ {
8003
+ "epoch": 0.11287442967665146,
8004
+ "grad_norm": 2.055633544921875,
8005
+ "learning_rate": 1.1538729676556126e-05,
8006
+ "loss": 43.3377,
8007
+ "step": 1138
8008
+ },
8009
+ {
8010
+ "epoch": 0.1129736163459631,
8011
+ "grad_norm": 1.6753968000411987,
8012
+ "learning_rate": 1.1429154412980036e-05,
8013
+ "loss": 43.48,
8014
+ "step": 1139
8015
+ },
8016
+ {
8017
+ "epoch": 0.11307280301527475,
8018
+ "grad_norm": 1.7096675634384155,
8019
+ "learning_rate": 1.132007037238506e-05,
8020
+ "loss": 43.4965,
8021
+ "step": 1140
8022
+ },
8023
+ {
8024
+ "epoch": 0.11317198968458639,
8025
+ "grad_norm": 1.7392076253890991,
8026
+ "learning_rate": 1.1211478159762478e-05,
8027
+ "loss": 43.176,
8028
+ "step": 1141
8029
+ },
8030
+ {
8031
+ "epoch": 0.11327117635389804,
8032
+ "grad_norm": 1.6176918745040894,
8033
+ "learning_rate": 1.1103378377375817e-05,
8034
+ "loss": 43.3362,
8035
+ "step": 1142
8036
+ },
8037
+ {
8038
+ "epoch": 0.11337036302320969,
8039
+ "grad_norm": 2.0120506286621094,
8040
+ "learning_rate": 1.0995771624757544e-05,
8041
+ "loss": 43.2759,
8042
+ "step": 1143
8043
+ },
8044
+ {
8045
+ "epoch": 0.11346954969252132,
8046
+ "grad_norm": 1.9368958473205566,
8047
+ "learning_rate": 1.0888658498705718e-05,
8048
+ "loss": 43.6071,
8049
+ "step": 1144
8050
+ },
8051
+ {
8052
+ "epoch": 0.11356873636183297,
8053
+ "grad_norm": 1.8773207664489746,
8054
+ "learning_rate": 1.0782039593280724e-05,
8055
+ "loss": 43.4137,
8056
+ "step": 1145
8057
+ },
8058
+ {
8059
+ "epoch": 0.11366792303114462,
8060
+ "grad_norm": 2.065094232559204,
8061
+ "learning_rate": 1.0675915499801914e-05,
8062
+ "loss": 43.4781,
8063
+ "step": 1146
8064
+ },
8065
+ {
8066
+ "epoch": 0.11376710970045625,
8067
+ "grad_norm": 2.0560083389282227,
8068
+ "learning_rate": 1.0570286806844376e-05,
8069
+ "loss": 43.4687,
8070
+ "step": 1147
8071
+ },
8072
+ {
8073
+ "epoch": 0.1138662963697679,
8074
+ "grad_norm": 1.664867877960205,
8075
+ "learning_rate": 1.046515410023572e-05,
8076
+ "loss": 43.4325,
8077
+ "step": 1148
8078
+ },
8079
+ {
8080
+ "epoch": 0.11396548303907955,
8081
+ "grad_norm": 1.5268546342849731,
8082
+ "learning_rate": 1.0360517963052619e-05,
8083
+ "loss": 43.4581,
8084
+ "step": 1149
8085
+ },
8086
+ {
8087
+ "epoch": 0.11406466970839119,
8088
+ "grad_norm": 2.0908620357513428,
8089
+ "learning_rate": 1.0256378975617853e-05,
8090
+ "loss": 42.9471,
8091
+ "step": 1150
8092
+ },
8093
+ {
8094
+ "epoch": 0.11416385637770284,
8095
+ "grad_norm": 2.265026092529297,
8096
+ "learning_rate": 1.0152737715496908e-05,
8097
+ "loss": 43.5461,
8098
+ "step": 1151
8099
+ },
8100
+ {
8101
+ "epoch": 0.11426304304701448,
8102
+ "grad_norm": 1.5516901016235352,
8103
+ "learning_rate": 1.0049594757494829e-05,
8104
+ "loss": 43.4487,
8105
+ "step": 1152
8106
+ },
8107
+ {
8108
+ "epoch": 0.11436222971632612,
8109
+ "grad_norm": 1.7153880596160889,
8110
+ "learning_rate": 9.94695067365301e-06,
8111
+ "loss": 43.2023,
8112
+ "step": 1153
8113
+ },
8114
+ {
8115
+ "epoch": 0.11446141638563777,
8116
+ "grad_norm": 2.0728423595428467,
8117
+ "learning_rate": 9.844806033246068e-06,
8118
+ "loss": 43.4621,
8119
+ "step": 1154
8120
+ },
8121
+ {
8122
+ "epoch": 0.11456060305494942,
8123
+ "grad_norm": 2.3434789180755615,
8124
+ "learning_rate": 9.743161402778634e-06,
8125
+ "loss": 43.2855,
8126
+ "step": 1155
8127
+ },
8128
+ {
8129
+ "epoch": 0.11465978972426107,
8130
+ "grad_norm": 1.8648738861083984,
8131
+ "learning_rate": 9.642017345982235e-06,
8132
+ "loss": 43.2802,
8133
+ "step": 1156
8134
+ },
8135
+ {
8136
+ "epoch": 0.1147589763935727,
8137
+ "grad_norm": 1.6814817190170288,
8138
+ "learning_rate": 9.541374423812177e-06,
8139
+ "loss": 43.1233,
8140
+ "step": 1157
8141
+ },
8142
+ {
8143
+ "epoch": 0.11485816306288435,
8144
+ "grad_norm": 1.8723162412643433,
8145
+ "learning_rate": 9.44123319444441e-06,
8146
+ "loss": 43.2563,
8147
+ "step": 1158
8148
+ },
8149
+ {
8150
+ "epoch": 0.114957349732196,
8151
+ "grad_norm": 2.2448067665100098,
8152
+ "learning_rate": 9.341594213272465e-06,
8153
+ "loss": 43.426,
8154
+ "step": 1159
8155
+ },
8156
+ {
8157
+ "epoch": 0.11505653640150763,
8158
+ "grad_norm": 2.0894312858581543,
8159
+ "learning_rate": 9.242458032904311e-06,
8160
+ "loss": 43.2877,
8161
+ "step": 1160
8162
+ },
8163
+ {
8164
+ "epoch": 0.11515572307081928,
8165
+ "grad_norm": 2.015583038330078,
8166
+ "learning_rate": 9.14382520315935e-06,
8167
+ "loss": 43.6647,
8168
+ "step": 1161
8169
+ },
8170
+ {
8171
+ "epoch": 0.11525490974013093,
8172
+ "grad_norm": 2.0385499000549316,
8173
+ "learning_rate": 9.045696271065396e-06,
8174
+ "loss": 42.9224,
8175
+ "step": 1162
8176
+ },
8177
+ {
8178
+ "epoch": 0.11535409640944257,
8179
+ "grad_norm": 2.058654546737671,
8180
+ "learning_rate": 8.948071780855538e-06,
8181
+ "loss": 43.6148,
8182
+ "step": 1163
8183
+ },
8184
+ {
8185
+ "epoch": 0.11545328307875422,
8186
+ "grad_norm": 2.029306411743164,
8187
+ "learning_rate": 8.850952273965196e-06,
8188
+ "loss": 43.2924,
8189
+ "step": 1164
8190
+ },
8191
+ {
8192
+ "epoch": 0.11555246974806586,
8193
+ "grad_norm": 1.7401396036148071,
8194
+ "learning_rate": 8.754338289029106e-06,
8195
+ "loss": 43.2577,
8196
+ "step": 1165
8197
+ },
8198
+ {
8199
+ "epoch": 0.1156516564173775,
8200
+ "grad_norm": 1.6870959997177124,
8201
+ "learning_rate": 8.658230361878328e-06,
8202
+ "loss": 43.4237,
8203
+ "step": 1166
8204
+ },
8205
+ {
8206
+ "epoch": 0.11575084308668915,
8207
+ "grad_norm": 2.116788864135742,
8208
+ "learning_rate": 8.56262902553725e-06,
8209
+ "loss": 43.4249,
8210
+ "step": 1167
8211
+ },
8212
+ {
8213
+ "epoch": 0.1158500297560008,
8214
+ "grad_norm": 1.7913825511932373,
8215
+ "learning_rate": 8.4675348102207e-06,
8216
+ "loss": 43.3905,
8217
+ "step": 1168
8218
+ },
8219
+ {
8220
+ "epoch": 0.11594921642531243,
8221
+ "grad_norm": 1.7659403085708618,
8222
+ "learning_rate": 8.372948243330936e-06,
8223
+ "loss": 43.2143,
8224
+ "step": 1169
8225
+ },
8226
+ {
8227
+ "epoch": 0.11604840309462408,
8228
+ "grad_norm": 1.7023272514343262,
8229
+ "learning_rate": 8.278869849454718e-06,
8230
+ "loss": 43.0592,
8231
+ "step": 1170
8232
+ },
8233
+ {
8234
+ "epoch": 0.11614758976393573,
8235
+ "grad_norm": 1.8545295000076294,
8236
+ "learning_rate": 8.185300150360463e-06,
8237
+ "loss": 43.2079,
8238
+ "step": 1171
8239
+ },
8240
+ {
8241
+ "epoch": 0.11624677643324736,
8242
+ "grad_norm": 1.7416118383407593,
8243
+ "learning_rate": 8.092239664995316e-06,
8244
+ "loss": 43.4283,
8245
+ "step": 1172
8246
+ },
8247
+ {
8248
+ "epoch": 0.11634596310255901,
8249
+ "grad_norm": 1.868096947669983,
8250
+ "learning_rate": 7.99968890948225e-06,
8251
+ "loss": 43.1325,
8252
+ "step": 1173
8253
+ },
8254
+ {
8255
+ "epoch": 0.11644514977187066,
8256
+ "grad_norm": 2.116372585296631,
8257
+ "learning_rate": 7.907648397117228e-06,
8258
+ "loss": 43.057,
8259
+ "step": 1174
8260
+ },
8261
+ {
8262
+ "epoch": 0.11654433644118231,
8263
+ "grad_norm": 2.0421884059906006,
8264
+ "learning_rate": 7.816118638366388e-06,
8265
+ "loss": 43.032,
8266
+ "step": 1175
8267
+ },
8268
+ {
8269
+ "epoch": 0.11664352311049395,
8270
+ "grad_norm": 2.0219967365264893,
8271
+ "learning_rate": 7.725100140863129e-06,
8272
+ "loss": 43.5534,
8273
+ "step": 1176
8274
+ },
8275
+ {
8276
+ "epoch": 0.1167427097798056,
8277
+ "grad_norm": 1.641720175743103,
8278
+ "learning_rate": 7.634593409405366e-06,
8279
+ "loss": 43.5048,
8280
+ "step": 1177
8281
+ },
8282
+ {
8283
+ "epoch": 0.11684189644911724,
8284
+ "grad_norm": 2.0781960487365723,
8285
+ "learning_rate": 7.5445989459526855e-06,
8286
+ "loss": 43.3761,
8287
+ "step": 1178
8288
+ },
8289
+ {
8290
+ "epoch": 0.11694108311842888,
8291
+ "grad_norm": 1.6230921745300293,
8292
+ "learning_rate": 7.455117249623622e-06,
8293
+ "loss": 43.5078,
8294
+ "step": 1179
8295
+ },
8296
+ {
8297
+ "epoch": 0.11704026978774053,
8298
+ "grad_norm": 1.8667571544647217,
8299
+ "learning_rate": 7.366148816692808e-06,
8300
+ "loss": 43.066,
8301
+ "step": 1180
8302
+ },
8303
+ {
8304
+ "epoch": 0.11713945645705218,
8305
+ "grad_norm": 2.407784938812256,
8306
+ "learning_rate": 7.277694140588287e-06,
8307
+ "loss": 42.7142,
8308
+ "step": 1181
8309
+ },
8310
+ {
8311
+ "epoch": 0.11723864312636381,
8312
+ "grad_norm": 1.6358100175857544,
8313
+ "learning_rate": 7.189753711888769e-06,
8314
+ "loss": 43.1891,
8315
+ "step": 1182
8316
+ },
8317
+ {
8318
+ "epoch": 0.11733782979567546,
8319
+ "grad_norm": 2.1615469455718994,
8320
+ "learning_rate": 7.102328018320858e-06,
8321
+ "loss": 43.3198,
8322
+ "step": 1183
8323
+ },
8324
+ {
8325
+ "epoch": 0.11743701646498711,
8326
+ "grad_norm": 2.0203118324279785,
8327
+ "learning_rate": 7.01541754475642e-06,
8328
+ "loss": 43.0365,
8329
+ "step": 1184
8330
+ },
8331
+ {
8332
+ "epoch": 0.11753620313429874,
8333
+ "grad_norm": 1.9108529090881348,
8334
+ "learning_rate": 6.929022773209837e-06,
8335
+ "loss": 43.414,
8336
+ "step": 1185
8337
+ },
8338
+ {
8339
+ "epoch": 0.1176353898036104,
8340
+ "grad_norm": 1.7372385263442993,
8341
+ "learning_rate": 6.843144182835359e-06,
8342
+ "loss": 43.4281,
8343
+ "step": 1186
8344
+ },
8345
+ {
8346
+ "epoch": 0.11773457647292204,
8347
+ "grad_norm": 1.8645622730255127,
8348
+ "learning_rate": 6.757782249924438e-06,
8349
+ "loss": 43.4027,
8350
+ "step": 1187
8351
+ },
8352
+ {
8353
+ "epoch": 0.11783376314223368,
8354
+ "grad_norm": 2.080435276031494,
8355
+ "learning_rate": 6.672937447903116e-06,
8356
+ "loss": 43.1936,
8357
+ "step": 1188
8358
+ },
8359
+ {
8360
+ "epoch": 0.11793294981154533,
8361
+ "grad_norm": 1.9808220863342285,
8362
+ "learning_rate": 6.58861024732933e-06,
8363
+ "loss": 43.059,
8364
+ "step": 1189
8365
+ },
8366
+ {
8367
+ "epoch": 0.11803213648085698,
8368
+ "grad_norm": 1.807006597518921,
8369
+ "learning_rate": 6.504801115890402e-06,
8370
+ "loss": 43.2361,
8371
+ "step": 1190
8372
+ },
8373
+ {
8374
+ "epoch": 0.11813132315016862,
8375
+ "grad_norm": 2.0664708614349365,
8376
+ "learning_rate": 6.421510518400331e-06,
8377
+ "loss": 43.2438,
8378
+ "step": 1191
8379
+ },
8380
+ {
8381
+ "epoch": 0.11823050981948026,
8382
+ "grad_norm": 2.5496108531951904,
8383
+ "learning_rate": 6.338738916797305e-06,
8384
+ "loss": 43.4156,
8385
+ "step": 1192
8386
+ },
8387
+ {
8388
+ "epoch": 0.11832969648879191,
8389
+ "grad_norm": 1.9860572814941406,
8390
+ "learning_rate": 6.2564867701411235e-06,
8391
+ "loss": 42.8271,
8392
+ "step": 1193
8393
+ },
8394
+ {
8395
+ "epoch": 0.11842888315810356,
8396
+ "grad_norm": 2.021204710006714,
8397
+ "learning_rate": 6.174754534610594e-06,
8398
+ "loss": 43.3807,
8399
+ "step": 1194
8400
+ },
8401
+ {
8402
+ "epoch": 0.11852806982741519,
8403
+ "grad_norm": 1.7771645784378052,
8404
+ "learning_rate": 6.093542663501073e-06,
8405
+ "loss": 43.4518,
8406
+ "step": 1195
8407
+ },
8408
+ {
8409
+ "epoch": 0.11862725649672684,
8410
+ "grad_norm": 1.7635542154312134,
8411
+ "learning_rate": 6.012851607221925e-06,
8412
+ "loss": 43.3036,
8413
+ "step": 1196
8414
+ },
8415
+ {
8416
+ "epoch": 0.11872644316603849,
8417
+ "grad_norm": 1.7768932580947876,
8418
+ "learning_rate": 5.932681813294005e-06,
8419
+ "loss": 43.5768,
8420
+ "step": 1197
8421
+ },
8422
+ {
8423
+ "epoch": 0.11882562983535012,
8424
+ "grad_norm": 1.600913166999817,
8425
+ "learning_rate": 5.853033726347202e-06,
8426
+ "loss": 43.3728,
8427
+ "step": 1198
8428
+ },
8429
+ {
8430
+ "epoch": 0.11892481650466177,
8431
+ "grad_norm": 1.6936606168746948,
8432
+ "learning_rate": 5.77390778811796e-06,
8433
+ "loss": 43.3653,
8434
+ "step": 1199
8435
+ },
8436
+ {
8437
+ "epoch": 0.11902400317397342,
8438
+ "grad_norm": 1.875420093536377,
8439
+ "learning_rate": 5.6953044374468355e-06,
8440
+ "loss": 43.5106,
8441
+ "step": 1200
8442
+ },
8443
+ {
8444
+ "epoch": 0.11912318984328506,
8445
+ "grad_norm": 2.0268564224243164,
8446
+ "learning_rate": 5.617224110276076e-06,
8447
+ "loss": 43.2039,
8448
+ "step": 1201
8449
+ },
8450
+ {
8451
+ "epoch": 0.1192223765125967,
8452
+ "grad_norm": 1.8611583709716797,
8453
+ "learning_rate": 5.539667239647139e-06,
8454
+ "loss": 43.4244,
8455
+ "step": 1202
8456
+ },
8457
+ {
8458
+ "epoch": 0.11932156318190835,
8459
+ "grad_norm": 2.0403125286102295,
8460
+ "learning_rate": 5.462634255698418e-06,
8461
+ "loss": 43.2939,
8462
+ "step": 1203
8463
+ },
8464
+ {
8465
+ "epoch": 0.11942074985121999,
8466
+ "grad_norm": 2.0934205055236816,
8467
+ "learning_rate": 5.386125585662716e-06,
8468
+ "loss": 43.4631,
8469
+ "step": 1204
8470
+ },
8471
+ {
8472
+ "epoch": 0.11951993652053164,
8473
+ "grad_norm": 1.9929084777832031,
8474
+ "learning_rate": 5.310141653864942e-06,
8475
+ "loss": 43.328,
8476
+ "step": 1205
8477
+ },
8478
+ {
8479
+ "epoch": 0.11961912318984329,
8480
+ "grad_norm": 2.1766374111175537,
8481
+ "learning_rate": 5.2346828817197655e-06,
8482
+ "loss": 43.2813,
8483
+ "step": 1206
8484
+ },
8485
+ {
8486
+ "epoch": 0.11971830985915492,
8487
+ "grad_norm": 1.745418667793274,
8488
+ "learning_rate": 5.159749687729265e-06,
8489
+ "loss": 43.1498,
8490
+ "step": 1207
8491
+ },
8492
+ {
8493
+ "epoch": 0.11981749652846657,
8494
+ "grad_norm": 1.8603312969207764,
8495
+ "learning_rate": 5.085342487480627e-06,
8496
+ "loss": 43.4305,
8497
+ "step": 1208
8498
+ },
8499
+ {
8500
+ "epoch": 0.11991668319777822,
8501
+ "grad_norm": 1.9274985790252686,
8502
+ "learning_rate": 5.0114616936437815e-06,
8503
+ "loss": 43.0262,
8504
+ "step": 1209
8505
+ },
8506
+ {
8507
+ "epoch": 0.12001586986708987,
8508
+ "grad_norm": 1.918195128440857,
8509
+ "learning_rate": 4.9381077159691865e-06,
8510
+ "loss": 43.5336,
8511
+ "step": 1210
8512
+ },
8513
+ {
8514
+ "epoch": 0.1201150565364015,
8515
+ "grad_norm": 2.0250661373138428,
8516
+ "learning_rate": 4.8652809612855125e-06,
8517
+ "loss": 43.3059,
8518
+ "step": 1211
8519
+ },
8520
+ {
8521
+ "epoch": 0.12021424320571315,
8522
+ "grad_norm": 1.831508994102478,
8523
+ "learning_rate": 4.792981833497412e-06,
8524
+ "loss": 42.8762,
8525
+ "step": 1212
8526
+ },
8527
+ {
8528
+ "epoch": 0.1203134298750248,
8529
+ "grad_norm": 2.05114483833313,
8530
+ "learning_rate": 4.721210733583248e-06,
8531
+ "loss": 43.5118,
8532
+ "step": 1213
8533
+ },
8534
+ {
8535
+ "epoch": 0.12041261654433644,
8536
+ "grad_norm": 2.184669256210327,
8537
+ "learning_rate": 4.64996805959288e-06,
8538
+ "loss": 43.3201,
8539
+ "step": 1214
8540
+ },
8541
+ {
8542
+ "epoch": 0.12051180321364809,
8543
+ "grad_norm": 1.8820152282714844,
8544
+ "learning_rate": 4.579254206645478e-06,
8545
+ "loss": 43.3894,
8546
+ "step": 1215
8547
+ },
8548
+ {
8549
+ "epoch": 0.12061098988295973,
8550
+ "grad_norm": 1.7433631420135498,
8551
+ "learning_rate": 4.509069566927326e-06,
8552
+ "loss": 43.3949,
8553
+ "step": 1216
8554
+ },
8555
+ {
8556
+ "epoch": 0.12071017655227137,
8557
+ "grad_norm": 1.893894910812378,
8558
+ "learning_rate": 4.439414529689612e-06,
8559
+ "loss": 43.2488,
8560
+ "step": 1217
8561
+ },
8562
+ {
8563
+ "epoch": 0.12080936322158302,
8564
+ "grad_norm": 2.229138135910034,
8565
+ "learning_rate": 4.370289481246314e-06,
8566
+ "loss": 43.2429,
8567
+ "step": 1218
8568
+ },
8569
+ {
8570
+ "epoch": 0.12090854989089467,
8571
+ "grad_norm": 2.0876107215881348,
8572
+ "learning_rate": 4.301694804972034e-06,
8573
+ "loss": 43.1376,
8574
+ "step": 1219
8575
+ },
8576
+ {
8577
+ "epoch": 0.1210077365602063,
8578
+ "grad_norm": 1.6483701467514038,
8579
+ "learning_rate": 4.233630881299855e-06,
8580
+ "loss": 43.4224,
8581
+ "step": 1220
8582
+ },
8583
+ {
8584
+ "epoch": 0.12110692322951795,
8585
+ "grad_norm": 1.5688742399215698,
8586
+ "learning_rate": 4.166098087719284e-06,
8587
+ "loss": 43.1682,
8588
+ "step": 1221
8589
+ },
8590
+ {
8591
+ "epoch": 0.1212061098988296,
8592
+ "grad_norm": 1.9683295488357544,
8593
+ "learning_rate": 4.099096798774116e-06,
8594
+ "loss": 43.3219,
8595
+ "step": 1222
8596
+ },
8597
+ {
8598
+ "epoch": 0.12130529656814124,
8599
+ "grad_norm": 1.7981922626495361,
8600
+ "learning_rate": 4.032627386060339e-06,
8601
+ "loss": 43.3061,
8602
+ "step": 1223
8603
+ },
8604
+ {
8605
+ "epoch": 0.12140448323745288,
8606
+ "grad_norm": 1.9006575345993042,
8607
+ "learning_rate": 3.966690218224145e-06,
8608
+ "loss": 43.2693,
8609
+ "step": 1224
8610
+ },
8611
+ {
8612
+ "epoch": 0.12150366990676453,
8613
+ "grad_norm": 1.9842143058776855,
8614
+ "learning_rate": 3.901285660959819e-06,
8615
+ "loss": 43.3803,
8616
+ "step": 1225
8617
+ },
8618
+ {
8619
+ "epoch": 0.12160285657607618,
8620
+ "grad_norm": 1.8857847452163696,
8621
+ "learning_rate": 3.836414077007711e-06,
8622
+ "loss": 43.5512,
8623
+ "step": 1226
8624
+ },
8625
+ {
8626
+ "epoch": 0.12170204324538782,
8627
+ "grad_norm": 1.8997752666473389,
8628
+ "learning_rate": 3.772075826152288e-06,
8629
+ "loss": 43.5707,
8630
+ "step": 1227
8631
+ },
8632
+ {
8633
+ "epoch": 0.12180122991469947,
8634
+ "grad_norm": 1.8132565021514893,
8635
+ "learning_rate": 3.7082712652200867e-06,
8636
+ "loss": 43.0362,
8637
+ "step": 1228
8638
+ },
8639
+ {
8640
+ "epoch": 0.12190041658401111,
8641
+ "grad_norm": 1.820780873298645,
8642
+ "learning_rate": 3.6450007480777093e-06,
8643
+ "loss": 43.3348,
8644
+ "step": 1229
8645
+ },
8646
+ {
8647
+ "epoch": 0.12199960325332275,
8648
+ "grad_norm": 1.8131434917449951,
8649
+ "learning_rate": 3.5822646256299497e-06,
8650
+ "loss": 43.1843,
8651
+ "step": 1230
8652
+ },
8653
+ {
8654
+ "epoch": 0.1220987899226344,
8655
+ "grad_norm": 1.9935396909713745,
8656
+ "learning_rate": 3.520063245817762e-06,
8657
+ "loss": 43.0113,
8658
+ "step": 1231
8659
+ },
8660
+ {
8661
+ "epoch": 0.12219797659194605,
8662
+ "grad_norm": 1.8963558673858643,
8663
+ "learning_rate": 3.458396953616372e-06,
8664
+ "loss": 43.1553,
8665
+ "step": 1232
8666
+ },
8667
+ {
8668
+ "epoch": 0.12229716326125768,
8669
+ "grad_norm": 2.3711862564086914,
8670
+ "learning_rate": 3.3972660910333464e-06,
8671
+ "loss": 43.4184,
8672
+ "step": 1233
8673
+ },
8674
+ {
8675
+ "epoch": 0.12239634993056933,
8676
+ "grad_norm": 1.6617259979248047,
8677
+ "learning_rate": 3.3366709971067167e-06,
8678
+ "loss": 43.0992,
8679
+ "step": 1234
8680
+ },
8681
+ {
8682
+ "epoch": 0.12249553659988098,
8683
+ "grad_norm": 1.9867712259292603,
8684
+ "learning_rate": 3.276612007903068e-06,
8685
+ "loss": 43.1166,
8686
+ "step": 1235
8687
+ },
8688
+ {
8689
+ "epoch": 0.12259472326919262,
8690
+ "grad_norm": 1.8714324235916138,
8691
+ "learning_rate": 3.2170894565157096e-06,
8692
+ "loss": 43.4582,
8693
+ "step": 1236
8694
+ },
8695
+ {
8696
+ "epoch": 0.12269390993850426,
8697
+ "grad_norm": 1.9636350870132446,
8698
+ "learning_rate": 3.1581036730628176e-06,
8699
+ "loss": 43.4121,
8700
+ "step": 1237
8701
+ },
8702
+ {
8703
+ "epoch": 0.12279309660781591,
8704
+ "grad_norm": 2.185626745223999,
8705
+ "learning_rate": 3.099654984685585e-06,
8706
+ "loss": 43.1177,
8707
+ "step": 1238
8708
+ },
8709
+ {
8710
+ "epoch": 0.12289228327712755,
8711
+ "grad_norm": 1.6559244394302368,
8712
+ "learning_rate": 3.041743715546419e-06,
8713
+ "loss": 43.5646,
8714
+ "step": 1239
8715
+ },
8716
+ {
8717
+ "epoch": 0.1229914699464392,
8718
+ "grad_norm": 1.9032150506973267,
8719
+ "learning_rate": 2.9843701868271567e-06,
8720
+ "loss": 43.4277,
8721
+ "step": 1240
8722
+ },
8723
+ {
8724
+ "epoch": 0.12309065661575085,
8725
+ "grad_norm": 1.9006465673446655,
8726
+ "learning_rate": 2.9275347167272537e-06,
8727
+ "loss": 43.0194,
8728
+ "step": 1241
8729
+ },
8730
+ {
8731
+ "epoch": 0.12318984328506248,
8732
+ "grad_norm": 1.8813462257385254,
8733
+ "learning_rate": 2.871237620462053e-06,
8734
+ "loss": 43.263,
8735
+ "step": 1242
8736
+ },
8737
+ {
8738
+ "epoch": 0.12328902995437413,
8739
+ "grad_norm": 1.997581958770752,
8740
+ "learning_rate": 2.8154792102610184e-06,
8741
+ "loss": 43.423,
8742
+ "step": 1243
8743
+ },
8744
+ {
8745
+ "epoch": 0.12338821662368578,
8746
+ "grad_norm": 1.8778765201568604,
8747
+ "learning_rate": 2.7602597953660046e-06,
8748
+ "loss": 43.0706,
8749
+ "step": 1244
8750
+ },
8751
+ {
8752
+ "epoch": 0.12348740329299743,
8753
+ "grad_norm": 1.6702715158462524,
8754
+ "learning_rate": 2.7055796820295354e-06,
8755
+ "loss": 43.5205,
8756
+ "step": 1245
8757
+ },
8758
+ {
8759
+ "epoch": 0.12358658996230906,
8760
+ "grad_norm": 2.4225120544433594,
8761
+ "learning_rate": 2.651439173513126e-06,
8762
+ "loss": 43.4694,
8763
+ "step": 1246
8764
+ },
8765
+ {
8766
+ "epoch": 0.12368577663162071,
8767
+ "grad_norm": 2.302687168121338,
8768
+ "learning_rate": 2.5978385700855866e-06,
8769
+ "loss": 43.3227,
8770
+ "step": 1247
8771
+ },
8772
+ {
8773
+ "epoch": 0.12378496330093236,
8774
+ "grad_norm": 1.843621015548706,
8775
+ "learning_rate": 2.5447781690213445e-06,
8776
+ "loss": 43.2239,
8777
+ "step": 1248
8778
+ },
8779
+ {
8780
+ "epoch": 0.123884149970244,
8781
+ "grad_norm": 2.2000372409820557,
8782
+ "learning_rate": 2.4922582645988236e-06,
8783
+ "loss": 43.1226,
8784
+ "step": 1249
8785
+ },
8786
+ {
8787
+ "epoch": 0.12398333663955564,
8788
+ "grad_norm": 2.187739372253418,
8789
+ "learning_rate": 2.4402791480987898e-06,
8790
+ "loss": 43.5807,
8791
+ "step": 1250
8792
+ },
8793
+ {
8794
+ "epoch": 0.12408252330886729,
8795
+ "grad_norm": 1.6812717914581299,
8796
+ "learning_rate": 2.3888411078027416e-06,
8797
+ "loss": 43.3424,
8798
+ "step": 1251
8799
+ },
8800
+ {
8801
+ "epoch": 0.12418170997817893,
8802
+ "grad_norm": 2.0572023391723633,
8803
+ "learning_rate": 2.3379444289913342e-06,
8804
+ "loss": 43.3282,
8805
+ "step": 1252
8806
+ },
8807
+ {
8808
+ "epoch": 0.12428089664749058,
8809
+ "grad_norm": 1.8210835456848145,
8810
+ "learning_rate": 2.2875893939427463e-06,
8811
+ "loss": 43.4319,
8812
+ "step": 1253
8813
+ },
8814
+ {
8815
+ "epoch": 0.12438008331680223,
8816
+ "grad_norm": 1.8024840354919434,
8817
+ "learning_rate": 2.23777628193117e-06,
8818
+ "loss": 43.2398,
8819
+ "step": 1254
8820
+ },
8821
+ {
8822
+ "epoch": 0.12447926998611386,
8823
+ "grad_norm": 2.1490607261657715,
8824
+ "learning_rate": 2.1885053692252246e-06,
8825
+ "loss": 43.2113,
8826
+ "step": 1255
8827
+ },
8828
+ {
8829
+ "epoch": 0.12457845665542551,
8830
+ "grad_norm": 2.1365859508514404,
8831
+ "learning_rate": 2.1397769290864235e-06,
8832
+ "loss": 43.4545,
8833
+ "step": 1256
8834
+ },
8835
+ {
8836
+ "epoch": 0.12467764332473716,
8837
+ "grad_norm": 1.835325837135315,
8838
+ "learning_rate": 2.091591231767709e-06,
8839
+ "loss": 43.2531,
8840
+ "step": 1257
8841
+ },
8842
+ {
8843
+ "epoch": 0.1247768299940488,
8844
+ "grad_norm": 1.9125484228134155,
8845
+ "learning_rate": 2.0439485445118865e-06,
8846
+ "loss": 43.3562,
8847
+ "step": 1258
8848
+ },
8849
+ {
8850
+ "epoch": 0.12487601666336044,
8851
+ "grad_norm": 1.8595831394195557,
8852
+ "learning_rate": 1.9968491315501713e-06,
8853
+ "loss": 43.0761,
8854
+ "step": 1259
8855
+ },
8856
+ {
8857
+ "epoch": 0.12497520333267209,
8858
+ "grad_norm": 2.0291929244995117,
8859
+ "learning_rate": 1.9502932541007436e-06,
8860
+ "loss": 43.1439,
8861
+ "step": 1260
8862
+ },
8863
+ {
8864
+ "epoch": 0.12507439000198373,
8865
+ "grad_norm": 2.1627490520477295,
8866
+ "learning_rate": 1.9042811703672502e-06,
8867
+ "loss": 43.2722,
8868
+ "step": 1261
8869
+ },
8870
+ {
8871
+ "epoch": 0.1251735766712954,
8872
+ "grad_norm": 1.6992684602737427,
8873
+ "learning_rate": 1.8588131355374405e-06,
8874
+ "loss": 43.4778,
8875
+ "step": 1262
8876
+ },
8877
+ {
8878
+ "epoch": 0.12527276334060702,
8879
+ "grad_norm": 1.5746253728866577,
8880
+ "learning_rate": 1.8138894017816766e-06,
8881
+ "loss": 43.1645,
8882
+ "step": 1263
8883
+ },
8884
+ {
8885
+ "epoch": 0.12537195000991866,
8886
+ "grad_norm": 1.8972227573394775,
8887
+ "learning_rate": 1.769510218251591e-06,
8888
+ "loss": 43.3548,
8889
+ "step": 1264
8890
+ },
8891
+ {
8892
+ "epoch": 0.12547113667923032,
8893
+ "grad_norm": 2.0554068088531494,
8894
+ "learning_rate": 1.725675831078688e-06,
8895
+ "loss": 43.4552,
8896
+ "step": 1265
8897
+ },
8898
+ {
8899
+ "epoch": 0.12557032334854196,
8900
+ "grad_norm": 2.1245503425598145,
8901
+ "learning_rate": 1.6823864833729664e-06,
8902
+ "loss": 43.5427,
8903
+ "step": 1266
8904
+ },
8905
+ {
8906
+ "epoch": 0.1256695100178536,
8907
+ "grad_norm": 2.3886890411376953,
8908
+ "learning_rate": 1.6396424152215762e-06,
8909
+ "loss": 43.0938,
8910
+ "step": 1267
8911
+ },
8912
+ {
8913
+ "epoch": 0.12576869668716525,
8914
+ "grad_norm": 2.1762146949768066,
8915
+ "learning_rate": 1.5974438636874978e-06,
8916
+ "loss": 43.2041,
8917
+ "step": 1268
8918
+ },
8919
+ {
8920
+ "epoch": 0.1258678833564769,
8921
+ "grad_norm": 1.7801687717437744,
8922
+ "learning_rate": 1.5557910628082206e-06,
8923
+ "loss": 43.5091,
8924
+ "step": 1269
8925
+ },
8926
+ {
8927
+ "epoch": 0.12596707002578852,
8928
+ "grad_norm": 2.0818722248077393,
8929
+ "learning_rate": 1.5146842435944441e-06,
8930
+ "loss": 43.2816,
8931
+ "step": 1270
8932
+ },
8933
+ {
8934
+ "epoch": 0.1260662566951002,
8935
+ "grad_norm": 2.1001269817352295,
8936
+ "learning_rate": 1.4741236340288122e-06,
8937
+ "loss": 43.2263,
8938
+ "step": 1271
8939
+ },
8940
+ {
8941
+ "epoch": 0.12616544336441182,
8942
+ "grad_norm": 2.029995918273926,
8943
+ "learning_rate": 1.434109459064603e-06,
8944
+ "loss": 43.1105,
8945
+ "step": 1272
8946
+ },
8947
+ {
8948
+ "epoch": 0.12626463003372346,
8949
+ "grad_norm": 1.984969973564148,
8950
+ "learning_rate": 1.3946419406245304e-06,
8951
+ "loss": 43.2671,
8952
+ "step": 1273
8953
+ },
8954
+ {
8955
+ "epoch": 0.12636381670303512,
8956
+ "grad_norm": 1.7695409059524536,
8957
+ "learning_rate": 1.3557212975994993e-06,
8958
+ "loss": 42.9536,
8959
+ "step": 1274
8960
+ },
8961
+ {
8962
+ "epoch": 0.12646300337234676,
8963
+ "grad_norm": 2.0820515155792236,
8964
+ "learning_rate": 1.317347745847386e-06,
8965
+ "loss": 43.0133,
8966
+ "step": 1275
8967
+ },
8968
+ {
8969
+ "epoch": 0.1265621900416584,
8970
+ "grad_norm": 2.0597188472747803,
8971
+ "learning_rate": 1.279521498191827e-06,
8972
+ "loss": 43.1739,
8973
+ "step": 1276
8974
+ },
8975
+ {
8976
+ "epoch": 0.12666137671097005,
8977
+ "grad_norm": 1.8863005638122559,
8978
+ "learning_rate": 1.2422427644210754e-06,
8979
+ "loss": 43.5289,
8980
+ "step": 1277
8981
+ },
8982
+ {
8983
+ "epoch": 0.1267605633802817,
8984
+ "grad_norm": 2.1200191974639893,
8985
+ "learning_rate": 1.2055117512868031e-06,
8986
+ "loss": 43.1213,
8987
+ "step": 1278
8988
+ },
8989
+ {
8990
+ "epoch": 0.12685975004959332,
8991
+ "grad_norm": 2.1680285930633545,
8992
+ "learning_rate": 1.1693286625029777e-06,
8993
+ "loss": 43.3076,
8994
+ "step": 1279
8995
+ },
8996
+ {
8997
+ "epoch": 0.12695893671890499,
8998
+ "grad_norm": 1.7989082336425781,
8999
+ "learning_rate": 1.1336936987446979e-06,
9000
+ "loss": 43.3069,
9001
+ "step": 1280
9002
+ },
9003
+ {
9004
+ "epoch": 0.12705812338821662,
9005
+ "grad_norm": 1.8872915506362915,
9006
+ "learning_rate": 1.0986070576471497e-06,
9007
+ "loss": 43.3615,
9008
+ "step": 1281
9009
+ },
9010
+ {
9011
+ "epoch": 0.12715731005752826,
9012
+ "grad_norm": 2.1114892959594727,
9013
+ "learning_rate": 1.0640689338044075e-06,
9014
+ "loss": 43.1546,
9015
+ "step": 1282
9016
+ },
9017
+ {
9018
+ "epoch": 0.12725649672683992,
9019
+ "grad_norm": 1.8347125053405762,
9020
+ "learning_rate": 1.0300795187684564e-06,
9021
+ "loss": 43.5179,
9022
+ "step": 1283
9023
+ },
9024
+ {
9025
+ "epoch": 0.12735568339615155,
9026
+ "grad_norm": 1.6136950254440308,
9027
+ "learning_rate": 9.966390010480831e-07,
9028
+ "loss": 43.2746,
9029
+ "step": 1284
9030
+ },
9031
+ {
9032
+ "epoch": 0.1274548700654632,
9033
+ "grad_norm": 1.850359320640564,
9034
+ "learning_rate": 9.637475661078198e-07,
9035
+ "loss": 43.4096,
9036
+ "step": 1285
9037
+ },
9038
+ {
9039
+ "epoch": 0.12755405673477485,
9040
+ "grad_norm": 1.955881953239441,
9041
+ "learning_rate": 9.314053963669245e-07,
9042
+ "loss": 42.7313,
9043
+ "step": 1286
9044
+ },
9045
+ {
9046
+ "epoch": 0.12765324340408649,
9047
+ "grad_norm": 1.6837208271026611,
9048
+ "learning_rate": 8.996126711983909e-07,
9049
+ "loss": 43.2663,
9050
+ "step": 1287
9051
+ },
9052
+ {
9053
+ "epoch": 0.12775243007339815,
9054
+ "grad_norm": 1.7635023593902588,
9055
+ "learning_rate": 8.68369566927929e-07,
9056
+ "loss": 43.4147,
9057
+ "step": 1288
9058
+ },
9059
+ {
9060
+ "epoch": 0.12785161674270978,
9061
+ "grad_norm": 2.063556432723999,
9062
+ "learning_rate": 8.376762568329866e-07,
9063
+ "loss": 43.2754,
9064
+ "step": 1289
9065
+ },
9066
+ {
9067
+ "epoch": 0.12795080341202142,
9068
+ "grad_norm": 1.8328710794448853,
9069
+ "learning_rate": 8.075329111418173e-07,
9070
+ "loss": 43.1189,
9071
+ "step": 1290
9072
+ },
9073
+ {
9074
+ "epoch": 0.12804999008133308,
9075
+ "grad_norm": 1.8368057012557983,
9076
+ "learning_rate": 7.779396970324926e-07,
9077
+ "loss": 43.4551,
9078
+ "step": 1291
9079
+ },
9080
+ {
9081
+ "epoch": 0.12814917675064472,
9082
+ "grad_norm": 1.9283866882324219,
9083
+ "learning_rate": 7.488967786320133e-07,
9084
+ "loss": 43.5714,
9085
+ "step": 1292
9086
+ },
9087
+ {
9088
+ "epoch": 0.12824836341995635,
9089
+ "grad_norm": 1.966615915298462,
9090
+ "learning_rate": 7.204043170153885e-07,
9091
+ "loss": 43.0098,
9092
+ "step": 1293
9093
+ },
9094
+ {
9095
+ "epoch": 0.12834755008926801,
9096
+ "grad_norm": 1.7975062131881714,
9097
+ "learning_rate": 6.924624702047133e-07,
9098
+ "loss": 43.2318,
9099
+ "step": 1294
9100
+ },
9101
+ {
9102
+ "epoch": 0.12844673675857965,
9103
+ "grad_norm": 1.6778006553649902,
9104
+ "learning_rate": 6.650713931683372e-07,
9105
+ "loss": 43.366,
9106
+ "step": 1295
9107
+ },
9108
+ {
9109
+ "epoch": 0.12854592342789128,
9110
+ "grad_norm": 1.70774245262146,
9111
+ "learning_rate": 6.382312378199861e-07,
9112
+ "loss": 43.2375,
9113
+ "step": 1296
9114
+ },
9115
+ {
9116
+ "epoch": 0.12864511009720295,
9117
+ "grad_norm": 2.0455780029296875,
9118
+ "learning_rate": 6.11942153017897e-07,
9119
+ "loss": 43.092,
9120
+ "step": 1297
9121
+ },
9122
+ {
9123
+ "epoch": 0.12874429676651458,
9124
+ "grad_norm": 1.8089312314987183,
9125
+ "learning_rate": 5.862042845640403e-07,
9126
+ "loss": 43.4991,
9127
+ "step": 1298
9128
+ },
9129
+ {
9130
+ "epoch": 0.12884348343582622,
9131
+ "grad_norm": 1.8586580753326416,
9132
+ "learning_rate": 5.610177752032653e-07,
9133
+ "loss": 43.7616,
9134
+ "step": 1299
9135
+ },
9136
+ {
9137
+ "epoch": 0.12894267010513788,
9138
+ "grad_norm": 2.4101357460021973,
9139
+ "learning_rate": 5.363827646225339e-07,
9140
+ "loss": 43.1867,
9141
+ "step": 1300
9142
+ },
9143
+ {
9144
+ "epoch": 0.12904185677444951,
9145
+ "grad_norm": 1.988531231880188,
9146
+ "learning_rate": 5.122993894501326e-07,
9147
+ "loss": 43.4501,
9148
+ "step": 1301
9149
+ },
9150
+ {
9151
+ "epoch": 0.12914104344376115,
9152
+ "grad_norm": 1.7886425256729126,
9153
+ "learning_rate": 4.887677832549287e-07,
9154
+ "loss": 43.1845,
9155
+ "step": 1302
9156
+ },
9157
+ {
9158
+ "epoch": 0.1292402301130728,
9159
+ "grad_norm": 1.8775324821472168,
9160
+ "learning_rate": 4.6578807654562575e-07,
9161
+ "loss": 43.0961,
9162
+ "step": 1303
9163
+ },
9164
+ {
9165
+ "epoch": 0.12933941678238445,
9166
+ "grad_norm": 1.961587905883789,
9167
+ "learning_rate": 4.4336039677002063e-07,
9168
+ "loss": 43.4241,
9169
+ "step": 1304
9170
+ },
9171
+ {
9172
+ "epoch": 0.12943860345169608,
9173
+ "grad_norm": 1.9175355434417725,
9174
+ "learning_rate": 4.214848683143258e-07,
9175
+ "loss": 43.4683,
9176
+ "step": 1305
9177
+ },
9178
+ {
9179
+ "epoch": 0.12953779012100775,
9180
+ "grad_norm": 2.0958609580993652,
9181
+ "learning_rate": 4.00161612502481e-07,
9182
+ "loss": 42.9338,
9183
+ "step": 1306
9184
+ },
9185
+ {
9186
+ "epoch": 0.12963697679031938,
9187
+ "grad_norm": 1.5481327772140503,
9188
+ "learning_rate": 3.793907475954206e-07,
9189
+ "loss": 43.4265,
9190
+ "step": 1307
9191
+ },
9192
+ {
9193
+ "epoch": 0.12973616345963102,
9194
+ "grad_norm": 1.7534235715866089,
9195
+ "learning_rate": 3.591723887904963e-07,
9196
+ "loss": 43.3331,
9197
+ "step": 1308
9198
+ },
9199
+ {
9200
+ "epoch": 0.12983535012894268,
9201
+ "grad_norm": 1.6640063524246216,
9202
+ "learning_rate": 3.395066482208109e-07,
9203
+ "loss": 43.4609,
9204
+ "step": 1309
9205
+ },
9206
+ {
9207
+ "epoch": 0.1299345367982543,
9208
+ "grad_norm": 1.8578706979751587,
9209
+ "learning_rate": 3.203936349545522e-07,
9210
+ "loss": 43.0968,
9211
+ "step": 1310
9212
+ },
9213
+ {
9214
+ "epoch": 0.13003372346756595,
9215
+ "grad_norm": 2.088249444961548,
9216
+ "learning_rate": 3.0183345499447124e-07,
9217
+ "loss": 43.4381,
9218
+ "step": 1311
9219
+ },
9220
+ {
9221
+ "epoch": 0.1301329101368776,
9222
+ "grad_norm": 1.87300705909729,
9223
+ "learning_rate": 2.838262112772161e-07,
9224
+ "loss": 43.5149,
9225
+ "step": 1312
9226
+ },
9227
+ {
9228
+ "epoch": 0.13023209680618925,
9229
+ "grad_norm": 1.5575294494628906,
9230
+ "learning_rate": 2.66372003672799e-07,
9231
+ "loss": 43.3978,
9232
+ "step": 1313
9233
+ },
9234
+ {
9235
+ "epoch": 0.13033128347550088,
9236
+ "grad_norm": 2.0681748390197754,
9237
+ "learning_rate": 2.4947092898406356e-07,
9238
+ "loss": 43.2021,
9239
+ "step": 1314
9240
+ },
9241
+ {
9242
+ "epoch": 0.13043047014481254,
9243
+ "grad_norm": 2.176769495010376,
9244
+ "learning_rate": 2.3312308094607382e-07,
9245
+ "loss": 43.1514,
9246
+ "step": 1315
9247
+ },
9248
+ {
9249
+ "epoch": 0.13052965681412418,
9250
+ "grad_norm": 1.7914772033691406,
9251
+ "learning_rate": 2.1732855022570388e-07,
9252
+ "loss": 43.4972,
9253
+ "step": 1316
9254
+ },
9255
+ {
9256
+ "epoch": 0.1306288434834358,
9257
+ "grad_norm": 2.1906986236572266,
9258
+ "learning_rate": 2.020874244210047e-07,
9259
+ "loss": 43.3806,
9260
+ "step": 1317
9261
+ },
9262
+ {
9263
+ "epoch": 0.13072803015274748,
9264
+ "grad_norm": 2.1337709426879883,
9265
+ "learning_rate": 1.8739978806082691e-07,
9266
+ "loss": 43.3733,
9267
+ "step": 1318
9268
+ },
9269
+ {
9270
+ "epoch": 0.1308272168220591,
9271
+ "grad_norm": 2.167402982711792,
9272
+ "learning_rate": 1.7326572260433216e-07,
9273
+ "loss": 43.4332,
9274
+ "step": 1319
9275
+ },
9276
+ {
9277
+ "epoch": 0.13092640349137075,
9278
+ "grad_norm": 1.884736180305481,
9279
+ "learning_rate": 1.596853064404602e-07,
9280
+ "loss": 43.4687,
9281
+ "step": 1320
9282
+ },
9283
+ {
9284
+ "epoch": 0.1310255901606824,
9285
+ "grad_norm": 1.9705302715301514,
9286
+ "learning_rate": 1.4665861488761813e-07,
9287
+ "loss": 43.4935,
9288
+ "step": 1321
9289
+ },
9290
+ {
9291
+ "epoch": 0.13112477682999404,
9292
+ "grad_norm": 1.9293596744537354,
9293
+ "learning_rate": 1.3418572019314736e-07,
9294
+ "loss": 43.5542,
9295
+ "step": 1322
9296
+ },
9297
+ {
9298
+ "epoch": 0.1312239634993057,
9299
+ "grad_norm": 1.8380331993103027,
9300
+ "learning_rate": 1.2226669153302395e-07,
9301
+ "loss": 43.5072,
9302
+ "step": 1323
9303
+ },
9304
+ {
9305
+ "epoch": 0.13132315016861734,
9306
+ "grad_norm": 1.8098722696304321,
9307
+ "learning_rate": 1.109015950113812e-07,
9308
+ "loss": 43.3644,
9309
+ "step": 1324
9310
+ },
9311
+ {
9312
+ "epoch": 0.13142233683792898,
9313
+ "grad_norm": 2.1474993228912354,
9314
+ "learning_rate": 1.0009049366022094e-07,
9315
+ "loss": 42.7517,
9316
+ "step": 1325
9317
+ },
9318
+ {
9319
+ "epoch": 0.13152152350724064,
9320
+ "grad_norm": 2.3392856121063232,
9321
+ "learning_rate": 8.98334474390139e-08,
9322
+ "loss": 43.3543,
9323
+ "step": 1326
9324
+ },
9325
+ {
9326
+ "epoch": 0.13162071017655227,
9327
+ "grad_norm": 1.8892265558242798,
9328
+ "learning_rate": 8.01305132343999e-08,
9329
+ "loss": 43.2119,
9330
+ "step": 1327
9331
+ },
9332
+ {
9333
+ "epoch": 0.1317198968458639,
9334
+ "grad_norm": 2.0166642665863037,
9335
+ "learning_rate": 7.098174485982156e-08,
9336
+ "loss": 43.3239,
9337
+ "step": 1328
9338
+ },
9339
+ {
9340
+ "epoch": 0.13181908351517557,
9341
+ "grad_norm": 2.0580971240997314,
9342
+ "learning_rate": 6.238719305530216e-08,
9343
+ "loss": 43.3833,
9344
+ "step": 1329
9345
+ },
9346
+ {
9347
+ "epoch": 0.1319182701844872,
9348
+ "grad_norm": 1.8761850595474243,
9349
+ "learning_rate": 5.4346905487101526e-08,
9350
+ "loss": 43.3263,
9351
+ "step": 1330
9352
+ },
9353
+ {
9354
+ "epoch": 0.13201745685379884,
9355
+ "grad_norm": 1.851615071296692,
9356
+ "learning_rate": 4.686092674748288e-08,
9357
+ "loss": 43.3252,
9358
+ "step": 1331
9359
+ },
9360
+ {
9361
+ "epoch": 0.1321166435231105,
9362
+ "grad_norm": 1.832255244255066,
9363
+ "learning_rate": 3.9929298354446365e-08,
9364
+ "loss": 43.3414,
9365
+ "step": 1332
9366
+ },
9367
+ {
9368
+ "epoch": 0.13221583019242214,
9369
+ "grad_norm": 2.0102450847625732,
9370
+ "learning_rate": 3.3552058751518124e-08,
9371
+ "loss": 43.6248,
9372
+ "step": 1333
9373
+ },
9374
+ {
9375
+ "epoch": 0.13231501686173378,
9376
+ "grad_norm": 1.9284136295318604,
9377
+ "learning_rate": 2.772924330751714e-08,
9378
+ "loss": 43.4551,
9379
+ "step": 1334
9380
+ },
9381
+ {
9382
+ "epoch": 0.13241420353104544,
9383
+ "grad_norm": 1.8584965467453003,
9384
+ "learning_rate": 2.2460884316377607e-08,
9385
+ "loss": 43.3633,
9386
+ "step": 1335
9387
+ },
9388
+ {
9389
+ "epoch": 0.13251339020035707,
9390
+ "grad_norm": 1.736203670501709,
9391
+ "learning_rate": 1.7747010996949087e-08,
9392
+ "loss": 43.5122,
9393
+ "step": 1336
9394
+ },
9395
+ {
9396
+ "epoch": 0.1326125768696687,
9397
+ "grad_norm": 1.7708873748779297,
9398
+ "learning_rate": 1.3587649492874388e-08,
9399
+ "loss": 43.2966,
9400
+ "step": 1337
9401
+ },
9402
+ {
9403
+ "epoch": 0.13271176353898037,
9404
+ "grad_norm": 1.7120670080184937,
9405
+ "learning_rate": 9.982822872378617e-09,
9406
+ "loss": 43.224,
9407
+ "step": 1338
9408
+ },
9409
+ {
9410
+ "epoch": 0.132810950208292,
9411
+ "grad_norm": 1.858152151107788,
9412
+ "learning_rate": 6.932551128202569e-09,
9413
+ "loss": 43.1979,
9414
+ "step": 1339
9415
+ },
9416
+ {
9417
+ "epoch": 0.13291013687760364,
9418
+ "grad_norm": 2.139455556869507,
9419
+ "learning_rate": 4.436851177480605e-09,
9420
+ "loss": 43.4363,
9421
+ "step": 1340
9422
+ },
9423
+ {
9424
+ "epoch": 0.1330093235469153,
9425
+ "grad_norm": 1.8616929054260254,
9426
+ "learning_rate": 2.495736861607423e-09,
9427
+ "loss": 43.6793,
9428
+ "step": 1341
9429
+ },
9430
+ {
9431
+ "epoch": 0.13310851021622694,
9432
+ "grad_norm": 2.07908034324646,
9433
+ "learning_rate": 1.1092189462047486e-09,
9434
+ "loss": 42.9538,
9435
+ "step": 1342
9436
+ },
9437
+ {
9438
+ "epoch": 0.13320769688553857,
9439
+ "grad_norm": 2.235191822052002,
9440
+ "learning_rate": 2.7730512104362506e-10,
9441
+ "loss": 43.3322,
9442
+ "step": 1343
9443
+ },
9444
+ {
9445
+ "epoch": 0.13330688355485024,
9446
+ "grad_norm": 1.9877276420593262,
9447
+ "learning_rate": 0.0,
9448
+ "loss": 43.4492,
9449
+ "step": 1344
9450
+ },
9451
+ {
9452
+ "epoch": 0.13330688355485024,
9453
+ "eval_loss": 10.826071739196777,
9454
+ "eval_runtime": 11.1457,
9455
+ "eval_samples_per_second": 380.866,
9456
+ "eval_steps_per_second": 190.478,
9457
+ "step": 1344
9458
  }
9459
  ],
9460
  "logging_steps": 1,
 
9469
  "should_evaluate": false,
9470
  "should_log": false,
9471
  "should_save": true,
9472
+ "should_training_stop": true
9473
  },
9474
  "attributes": {}
9475
  }
9476
  },
9477
+ "total_flos": 13054239571968.0,
9478
  "train_batch_size": 2,
9479
  "trial_name": null,
9480
  "trial_params": null