DeepDream2045 commited on
Commit
875511a
·
verified ·
1 Parent(s): 3abaa47

Training in progress, step 588, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b5a1e8cf7e43d77bfa06f8b5a5a9455c4fcc35408e7fae6e4b15ad2d6dd0253b
3
  size 83945296
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1b8cc864cc1f54d10890b9acd2551c323b0e3438a9fe18de8b0fb09ba6d10dda
3
  size 83945296
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d026656f68651b7584c303ddacc8dc0a494be329199acf61ed5262531ba33743
3
  size 43123028
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3f743e096d531a90f19e6fda22899fe87bc41c458d260888bce8d18557ec563b
3
  size 43123028
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ed320c78c0a0edb3486be67e19b128c78e13d82a1275b0a533f026e1fc8f80e1
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5dbbd2dfd1f3a5044a31ea5a030e11aeba92fcd37cb867f40e061211bcde3e30
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:415f7ae6538b0c9192d97eaf9f28df8942dd7890a28fb47c0a16841dda85a451
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fe12bf308471af9518165c28c516df6c67b2311f209af1fe824f9e028f69f79c
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.2500797448165869,
5
  "eval_steps": 294,
6
- "global_step": 294,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2073,6 +2073,2072 @@
2073
  "eval_samples_per_second": 12.278,
2074
  "eval_steps_per_second": 6.139,
2075
  "step": 294
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2076
  }
2077
  ],
2078
  "logging_steps": 1,
@@ -2092,7 +4158,7 @@
2092
  "attributes": {}
2093
  }
2094
  },
2095
- "total_flos": 2.987046260755661e+17,
2096
  "train_batch_size": 2,
2097
  "trial_name": null,
2098
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.5001594896331738,
5
  "eval_steps": 294,
6
+ "global_step": 588,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2073
  "eval_samples_per_second": 12.278,
2074
  "eval_steps_per_second": 6.139,
2075
  "step": 294
2076
+ },
2077
+ {
2078
+ "epoch": 0.2509303561935141,
2079
+ "grad_norm": 0.6918848156929016,
2080
+ "learning_rate": 0.00017193813910758,
2081
+ "loss": 2.6556,
2082
+ "step": 295
2083
+ },
2084
+ {
2085
+ "epoch": 0.25178096757044127,
2086
+ "grad_norm": 0.5682982802391052,
2087
+ "learning_rate": 0.00017175072570443312,
2088
+ "loss": 2.6581,
2089
+ "step": 296
2090
+ },
2091
+ {
2092
+ "epoch": 0.25263157894736843,
2093
+ "grad_norm": 0.6087559461593628,
2094
+ "learning_rate": 0.00017156279143208352,
2095
+ "loss": 2.5665,
2096
+ "step": 297
2097
+ },
2098
+ {
2099
+ "epoch": 0.2534821903242956,
2100
+ "grad_norm": 0.6545628309249878,
2101
+ "learning_rate": 0.00017137433765482642,
2102
+ "loss": 2.8215,
2103
+ "step": 298
2104
+ },
2105
+ {
2106
+ "epoch": 0.25433280170122274,
2107
+ "grad_norm": 0.6754540801048279,
2108
+ "learning_rate": 0.00017118536574072842,
2109
+ "loss": 2.7991,
2110
+ "step": 299
2111
+ },
2112
+ {
2113
+ "epoch": 0.2551834130781499,
2114
+ "grad_norm": 0.6926846504211426,
2115
+ "learning_rate": 0.0001709958770616174,
2116
+ "loss": 2.7371,
2117
+ "step": 300
2118
+ },
2119
+ {
2120
+ "epoch": 0.2560340244550771,
2121
+ "grad_norm": 0.32997071743011475,
2122
+ "learning_rate": 0.00017080587299307283,
2123
+ "loss": 2.7739,
2124
+ "step": 301
2125
+ },
2126
+ {
2127
+ "epoch": 0.25688463583200427,
2128
+ "grad_norm": 0.3260290324687958,
2129
+ "learning_rate": 0.0001706153549144154,
2130
+ "loss": 2.5971,
2131
+ "step": 302
2132
+ },
2133
+ {
2134
+ "epoch": 0.25773524720893143,
2135
+ "grad_norm": 0.3378421366214752,
2136
+ "learning_rate": 0.00017042432420869732,
2137
+ "loss": 2.7588,
2138
+ "step": 303
2139
+ },
2140
+ {
2141
+ "epoch": 0.2585858585858586,
2142
+ "grad_norm": 0.27844691276550293,
2143
+ "learning_rate": 0.0001702327822626922,
2144
+ "loss": 2.6493,
2145
+ "step": 304
2146
+ },
2147
+ {
2148
+ "epoch": 0.25943646996278574,
2149
+ "grad_norm": 0.29100462794303894,
2150
+ "learning_rate": 0.00017004073046688497,
2151
+ "loss": 2.6397,
2152
+ "step": 305
2153
+ },
2154
+ {
2155
+ "epoch": 0.2602870813397129,
2156
+ "grad_norm": 0.2764577865600586,
2157
+ "learning_rate": 0.00016984817021546177,
2158
+ "loss": 2.4199,
2159
+ "step": 306
2160
+ },
2161
+ {
2162
+ "epoch": 0.26113769271664006,
2163
+ "grad_norm": 0.26870644092559814,
2164
+ "learning_rate": 0.00016965510290629972,
2165
+ "loss": 2.2552,
2166
+ "step": 307
2167
+ },
2168
+ {
2169
+ "epoch": 0.26198830409356727,
2170
+ "grad_norm": 0.2770349979400635,
2171
+ "learning_rate": 0.00016946152994095704,
2172
+ "loss": 2.6118,
2173
+ "step": 308
2174
+ },
2175
+ {
2176
+ "epoch": 0.2628389154704944,
2177
+ "grad_norm": 0.27041003108024597,
2178
+ "learning_rate": 0.00016926745272466268,
2179
+ "loss": 2.5329,
2180
+ "step": 309
2181
+ },
2182
+ {
2183
+ "epoch": 0.2636895268474216,
2184
+ "grad_norm": 0.25608015060424805,
2185
+ "learning_rate": 0.00016907287266630614,
2186
+ "loss": 2.3411,
2187
+ "step": 310
2188
+ },
2189
+ {
2190
+ "epoch": 0.26454013822434874,
2191
+ "grad_norm": 0.2750420570373535,
2192
+ "learning_rate": 0.00016887779117842725,
2193
+ "loss": 2.6393,
2194
+ "step": 311
2195
+ },
2196
+ {
2197
+ "epoch": 0.2653907496012759,
2198
+ "grad_norm": 0.26276537775993347,
2199
+ "learning_rate": 0.00016868220967720604,
2200
+ "loss": 2.3616,
2201
+ "step": 312
2202
+ },
2203
+ {
2204
+ "epoch": 0.26624136097820306,
2205
+ "grad_norm": 0.2735307514667511,
2206
+ "learning_rate": 0.00016848612958245216,
2207
+ "loss": 2.5156,
2208
+ "step": 313
2209
+ },
2210
+ {
2211
+ "epoch": 0.26709197235513027,
2212
+ "grad_norm": 0.32951095700263977,
2213
+ "learning_rate": 0.00016828955231759497,
2214
+ "loss": 2.5329,
2215
+ "step": 314
2216
+ },
2217
+ {
2218
+ "epoch": 0.2679425837320574,
2219
+ "grad_norm": 0.2762184143066406,
2220
+ "learning_rate": 0.00016809247930967282,
2221
+ "loss": 2.6873,
2222
+ "step": 315
2223
+ },
2224
+ {
2225
+ "epoch": 0.2687931951089846,
2226
+ "grad_norm": 0.2802570164203644,
2227
+ "learning_rate": 0.000167894911989323,
2228
+ "loss": 2.5532,
2229
+ "step": 316
2230
+ },
2231
+ {
2232
+ "epoch": 0.26964380648591174,
2233
+ "grad_norm": 0.26968276500701904,
2234
+ "learning_rate": 0.0001676968517907712,
2235
+ "loss": 2.602,
2236
+ "step": 317
2237
+ },
2238
+ {
2239
+ "epoch": 0.2704944178628389,
2240
+ "grad_norm": 0.27560874819755554,
2241
+ "learning_rate": 0.00016749830015182107,
2242
+ "loss": 2.5003,
2243
+ "step": 318
2244
+ },
2245
+ {
2246
+ "epoch": 0.27134502923976606,
2247
+ "grad_norm": 0.288411021232605,
2248
+ "learning_rate": 0.00016729925851384386,
2249
+ "loss": 2.6859,
2250
+ "step": 319
2251
+ },
2252
+ {
2253
+ "epoch": 0.27219564061669327,
2254
+ "grad_norm": 0.2999224364757538,
2255
+ "learning_rate": 0.00016709972832176797,
2256
+ "loss": 2.8356,
2257
+ "step": 320
2258
+ },
2259
+ {
2260
+ "epoch": 0.2730462519936204,
2261
+ "grad_norm": 0.2956329882144928,
2262
+ "learning_rate": 0.0001668997110240684,
2263
+ "loss": 2.6157,
2264
+ "step": 321
2265
+ },
2266
+ {
2267
+ "epoch": 0.2738968633705476,
2268
+ "grad_norm": 0.30924192070961,
2269
+ "learning_rate": 0.00016669920807275623,
2270
+ "loss": 2.8421,
2271
+ "step": 322
2272
+ },
2273
+ {
2274
+ "epoch": 0.27474747474747474,
2275
+ "grad_norm": 0.31185418367385864,
2276
+ "learning_rate": 0.00016649822092336812,
2277
+ "loss": 2.758,
2278
+ "step": 323
2279
+ },
2280
+ {
2281
+ "epoch": 0.2755980861244019,
2282
+ "grad_norm": 0.3129124045372009,
2283
+ "learning_rate": 0.0001662967510349558,
2284
+ "loss": 2.6861,
2285
+ "step": 324
2286
+ },
2287
+ {
2288
+ "epoch": 0.27644869750132905,
2289
+ "grad_norm": 0.3300238251686096,
2290
+ "learning_rate": 0.00016609479987007527,
2291
+ "loss": 2.8284,
2292
+ "step": 325
2293
+ },
2294
+ {
2295
+ "epoch": 0.27729930887825627,
2296
+ "grad_norm": 0.3459511399269104,
2297
+ "learning_rate": 0.00016589236889477646,
2298
+ "loss": 2.6454,
2299
+ "step": 326
2300
+ },
2301
+ {
2302
+ "epoch": 0.2781499202551834,
2303
+ "grad_norm": 0.3566714823246002,
2304
+ "learning_rate": 0.00016568945957859236,
2305
+ "loss": 2.399,
2306
+ "step": 327
2307
+ },
2308
+ {
2309
+ "epoch": 0.2790005316321106,
2310
+ "grad_norm": 0.3650771379470825,
2311
+ "learning_rate": 0.00016548607339452853,
2312
+ "loss": 2.7529,
2313
+ "step": 328
2314
+ },
2315
+ {
2316
+ "epoch": 0.27985114300903774,
2317
+ "grad_norm": 0.35940608382225037,
2318
+ "learning_rate": 0.00016528221181905217,
2319
+ "loss": 2.5894,
2320
+ "step": 329
2321
+ },
2322
+ {
2323
+ "epoch": 0.2807017543859649,
2324
+ "grad_norm": 0.4018422067165375,
2325
+ "learning_rate": 0.0001650778763320817,
2326
+ "loss": 2.7001,
2327
+ "step": 330
2328
+ },
2329
+ {
2330
+ "epoch": 0.28155236576289205,
2331
+ "grad_norm": 0.3867095708847046,
2332
+ "learning_rate": 0.00016487306841697578,
2333
+ "loss": 2.9919,
2334
+ "step": 331
2335
+ },
2336
+ {
2337
+ "epoch": 0.28240297713981927,
2338
+ "grad_norm": 0.5714160799980164,
2339
+ "learning_rate": 0.0001646677895605227,
2340
+ "loss": 2.9366,
2341
+ "step": 332
2342
+ },
2343
+ {
2344
+ "epoch": 0.2832535885167464,
2345
+ "grad_norm": 0.3697023391723633,
2346
+ "learning_rate": 0.00016446204125292942,
2347
+ "loss": 2.653,
2348
+ "step": 333
2349
+ },
2350
+ {
2351
+ "epoch": 0.2841041998936736,
2352
+ "grad_norm": 0.4222877323627472,
2353
+ "learning_rate": 0.00016425582498781087,
2354
+ "loss": 2.8557,
2355
+ "step": 334
2356
+ },
2357
+ {
2358
+ "epoch": 0.28495481127060074,
2359
+ "grad_norm": 0.40899163484573364,
2360
+ "learning_rate": 0.0001640491422621792,
2361
+ "loss": 2.7875,
2362
+ "step": 335
2363
+ },
2364
+ {
2365
+ "epoch": 0.2858054226475279,
2366
+ "grad_norm": 0.44694027304649353,
2367
+ "learning_rate": 0.00016384199457643262,
2368
+ "loss": 2.8616,
2369
+ "step": 336
2370
+ },
2371
+ {
2372
+ "epoch": 0.28665603402445505,
2373
+ "grad_norm": 0.45921215415000916,
2374
+ "learning_rate": 0.00016363438343434483,
2375
+ "loss": 2.5821,
2376
+ "step": 337
2377
+ },
2378
+ {
2379
+ "epoch": 0.28750664540138227,
2380
+ "grad_norm": 0.4156991243362427,
2381
+ "learning_rate": 0.00016342631034305384,
2382
+ "loss": 2.7228,
2383
+ "step": 338
2384
+ },
2385
+ {
2386
+ "epoch": 0.2883572567783094,
2387
+ "grad_norm": 0.43912479281425476,
2388
+ "learning_rate": 0.00016321777681305125,
2389
+ "loss": 2.7119,
2390
+ "step": 339
2391
+ },
2392
+ {
2393
+ "epoch": 0.2892078681552366,
2394
+ "grad_norm": 0.4638505280017853,
2395
+ "learning_rate": 0.00016300878435817113,
2396
+ "loss": 2.6832,
2397
+ "step": 340
2398
+ },
2399
+ {
2400
+ "epoch": 0.29005847953216374,
2401
+ "grad_norm": 0.4912424087524414,
2402
+ "learning_rate": 0.00016279933449557906,
2403
+ "loss": 2.6583,
2404
+ "step": 341
2405
+ },
2406
+ {
2407
+ "epoch": 0.2909090909090909,
2408
+ "grad_norm": 0.5067815780639648,
2409
+ "learning_rate": 0.00016258942874576118,
2410
+ "loss": 2.7723,
2411
+ "step": 342
2412
+ },
2413
+ {
2414
+ "epoch": 0.29175970228601805,
2415
+ "grad_norm": 0.49635544419288635,
2416
+ "learning_rate": 0.0001623790686325131,
2417
+ "loss": 2.7351,
2418
+ "step": 343
2419
+ },
2420
+ {
2421
+ "epoch": 0.29261031366294527,
2422
+ "grad_norm": 0.49465370178222656,
2423
+ "learning_rate": 0.00016216825568292885,
2424
+ "loss": 2.7251,
2425
+ "step": 344
2426
+ },
2427
+ {
2428
+ "epoch": 0.2934609250398724,
2429
+ "grad_norm": 0.558665931224823,
2430
+ "learning_rate": 0.00016195699142738975,
2431
+ "loss": 2.5475,
2432
+ "step": 345
2433
+ },
2434
+ {
2435
+ "epoch": 0.2943115364167996,
2436
+ "grad_norm": 0.6477727890014648,
2437
+ "learning_rate": 0.00016174527739955342,
2438
+ "loss": 2.7069,
2439
+ "step": 346
2440
+ },
2441
+ {
2442
+ "epoch": 0.29516214779372674,
2443
+ "grad_norm": 0.6656542420387268,
2444
+ "learning_rate": 0.00016153311513634257,
2445
+ "loss": 3.0185,
2446
+ "step": 347
2447
+ },
2448
+ {
2449
+ "epoch": 0.2960127591706539,
2450
+ "grad_norm": 0.7209298610687256,
2451
+ "learning_rate": 0.0001613205061779337,
2452
+ "loss": 2.8225,
2453
+ "step": 348
2454
+ },
2455
+ {
2456
+ "epoch": 0.29686337054758105,
2457
+ "grad_norm": 0.6285322308540344,
2458
+ "learning_rate": 0.0001611074520677462,
2459
+ "loss": 2.9088,
2460
+ "step": 349
2461
+ },
2462
+ {
2463
+ "epoch": 0.29771398192450826,
2464
+ "grad_norm": 0.7612189054489136,
2465
+ "learning_rate": 0.00016089395435243105,
2466
+ "loss": 2.9744,
2467
+ "step": 350
2468
+ },
2469
+ {
2470
+ "epoch": 0.2985645933014354,
2471
+ "grad_norm": 0.3265992999076843,
2472
+ "learning_rate": 0.00016068001458185936,
2473
+ "loss": 2.3931,
2474
+ "step": 351
2475
+ },
2476
+ {
2477
+ "epoch": 0.2994152046783626,
2478
+ "grad_norm": 0.3179806172847748,
2479
+ "learning_rate": 0.00016046563430911146,
2480
+ "loss": 2.6212,
2481
+ "step": 352
2482
+ },
2483
+ {
2484
+ "epoch": 0.30026581605528974,
2485
+ "grad_norm": 0.31296634674072266,
2486
+ "learning_rate": 0.00016025081509046544,
2487
+ "loss": 2.5008,
2488
+ "step": 353
2489
+ },
2490
+ {
2491
+ "epoch": 0.3011164274322169,
2492
+ "grad_norm": 0.283408522605896,
2493
+ "learning_rate": 0.00016003555848538586,
2494
+ "loss": 2.3946,
2495
+ "step": 354
2496
+ },
2497
+ {
2498
+ "epoch": 0.30196703880914405,
2499
+ "grad_norm": 0.2742927074432373,
2500
+ "learning_rate": 0.00015981986605651248,
2501
+ "loss": 2.5154,
2502
+ "step": 355
2503
+ },
2504
+ {
2505
+ "epoch": 0.30281765018607126,
2506
+ "grad_norm": 0.29107552766799927,
2507
+ "learning_rate": 0.00015960373936964892,
2508
+ "loss": 2.505,
2509
+ "step": 356
2510
+ },
2511
+ {
2512
+ "epoch": 0.3036682615629984,
2513
+ "grad_norm": 0.3244473338127136,
2514
+ "learning_rate": 0.0001593871799937512,
2515
+ "loss": 2.5244,
2516
+ "step": 357
2517
+ },
2518
+ {
2519
+ "epoch": 0.3045188729399256,
2520
+ "grad_norm": 0.27494120597839355,
2521
+ "learning_rate": 0.0001591701895009164,
2522
+ "loss": 2.4161,
2523
+ "step": 358
2524
+ },
2525
+ {
2526
+ "epoch": 0.30536948431685274,
2527
+ "grad_norm": 0.28784480690956116,
2528
+ "learning_rate": 0.00015895276946637136,
2529
+ "loss": 2.6434,
2530
+ "step": 359
2531
+ },
2532
+ {
2533
+ "epoch": 0.3062200956937799,
2534
+ "grad_norm": 0.28096505999565125,
2535
+ "learning_rate": 0.00015873492146846108,
2536
+ "loss": 2.6784,
2537
+ "step": 360
2538
+ },
2539
+ {
2540
+ "epoch": 0.30707070707070705,
2541
+ "grad_norm": 0.2602795362472534,
2542
+ "learning_rate": 0.00015851664708863735,
2543
+ "loss": 2.2712,
2544
+ "step": 361
2545
+ },
2546
+ {
2547
+ "epoch": 0.30792131844763426,
2548
+ "grad_norm": 0.28796225786209106,
2549
+ "learning_rate": 0.0001582979479114472,
2550
+ "loss": 2.8673,
2551
+ "step": 362
2552
+ },
2553
+ {
2554
+ "epoch": 0.3087719298245614,
2555
+ "grad_norm": 0.273456871509552,
2556
+ "learning_rate": 0.00015807882552452154,
2557
+ "loss": 2.6931,
2558
+ "step": 363
2559
+ },
2560
+ {
2561
+ "epoch": 0.3096225412014886,
2562
+ "grad_norm": 0.29190319776535034,
2563
+ "learning_rate": 0.00015785928151856347,
2564
+ "loss": 2.5932,
2565
+ "step": 364
2566
+ },
2567
+ {
2568
+ "epoch": 0.31047315257841573,
2569
+ "grad_norm": 0.290829598903656,
2570
+ "learning_rate": 0.0001576393174873368,
2571
+ "loss": 2.6889,
2572
+ "step": 365
2573
+ },
2574
+ {
2575
+ "epoch": 0.3113237639553429,
2576
+ "grad_norm": 0.27631402015686035,
2577
+ "learning_rate": 0.0001574189350276545,
2578
+ "loss": 2.6508,
2579
+ "step": 366
2580
+ },
2581
+ {
2582
+ "epoch": 0.31217437533227005,
2583
+ "grad_norm": 0.30464449524879456,
2584
+ "learning_rate": 0.00015719813573936712,
2585
+ "loss": 2.4918,
2586
+ "step": 367
2587
+ },
2588
+ {
2589
+ "epoch": 0.31302498670919726,
2590
+ "grad_norm": 0.2622525095939636,
2591
+ "learning_rate": 0.00015697692122535107,
2592
+ "loss": 2.4657,
2593
+ "step": 368
2594
+ },
2595
+ {
2596
+ "epoch": 0.3138755980861244,
2597
+ "grad_norm": 0.2790607810020447,
2598
+ "learning_rate": 0.0001567552930914972,
2599
+ "loss": 2.78,
2600
+ "step": 369
2601
+ },
2602
+ {
2603
+ "epoch": 0.3147262094630516,
2604
+ "grad_norm": 0.27601122856140137,
2605
+ "learning_rate": 0.00015653325294669884,
2606
+ "loss": 2.6908,
2607
+ "step": 370
2608
+ },
2609
+ {
2610
+ "epoch": 0.31557682083997873,
2611
+ "grad_norm": 0.3054703176021576,
2612
+ "learning_rate": 0.0001563108024028404,
2613
+ "loss": 2.6602,
2614
+ "step": 371
2615
+ },
2616
+ {
2617
+ "epoch": 0.3164274322169059,
2618
+ "grad_norm": 0.2979956567287445,
2619
+ "learning_rate": 0.00015608794307478546,
2620
+ "loss": 2.8034,
2621
+ "step": 372
2622
+ },
2623
+ {
2624
+ "epoch": 0.31727804359383305,
2625
+ "grad_norm": 0.3022500276565552,
2626
+ "learning_rate": 0.00015586467658036524,
2627
+ "loss": 2.6491,
2628
+ "step": 373
2629
+ },
2630
+ {
2631
+ "epoch": 0.31812865497076026,
2632
+ "grad_norm": 0.3278852701187134,
2633
+ "learning_rate": 0.0001556410045403667,
2634
+ "loss": 2.5928,
2635
+ "step": 374
2636
+ },
2637
+ {
2638
+ "epoch": 0.3189792663476874,
2639
+ "grad_norm": 0.3023948073387146,
2640
+ "learning_rate": 0.0001554169285785208,
2641
+ "loss": 2.6165,
2642
+ "step": 375
2643
+ },
2644
+ {
2645
+ "epoch": 0.3198298777246146,
2646
+ "grad_norm": 0.33025047183036804,
2647
+ "learning_rate": 0.00015519245032149083,
2648
+ "loss": 2.7669,
2649
+ "step": 376
2650
+ },
2651
+ {
2652
+ "epoch": 0.32068048910154173,
2653
+ "grad_norm": 0.3081379532814026,
2654
+ "learning_rate": 0.0001549675713988604,
2655
+ "loss": 2.5991,
2656
+ "step": 377
2657
+ },
2658
+ {
2659
+ "epoch": 0.3215311004784689,
2660
+ "grad_norm": 0.35036811232566833,
2661
+ "learning_rate": 0.0001547422934431218,
2662
+ "loss": 2.6891,
2663
+ "step": 378
2664
+ },
2665
+ {
2666
+ "epoch": 0.32238171185539605,
2667
+ "grad_norm": 0.399915486574173,
2668
+ "learning_rate": 0.00015451661808966405,
2669
+ "loss": 2.8271,
2670
+ "step": 379
2671
+ },
2672
+ {
2673
+ "epoch": 0.32323232323232326,
2674
+ "grad_norm": 0.3355950713157654,
2675
+ "learning_rate": 0.00015429054697676107,
2676
+ "loss": 2.3574,
2677
+ "step": 380
2678
+ },
2679
+ {
2680
+ "epoch": 0.3240829346092504,
2681
+ "grad_norm": 0.35686787962913513,
2682
+ "learning_rate": 0.00015406408174555976,
2683
+ "loss": 2.6926,
2684
+ "step": 381
2685
+ },
2686
+ {
2687
+ "epoch": 0.3249335459861776,
2688
+ "grad_norm": 0.3730961084365845,
2689
+ "learning_rate": 0.00015383722404006806,
2690
+ "loss": 2.7418,
2691
+ "step": 382
2692
+ },
2693
+ {
2694
+ "epoch": 0.32578415736310473,
2695
+ "grad_norm": 0.36210712790489197,
2696
+ "learning_rate": 0.00015360997550714305,
2697
+ "loss": 2.7188,
2698
+ "step": 383
2699
+ },
2700
+ {
2701
+ "epoch": 0.3266347687400319,
2702
+ "grad_norm": 0.4164154827594757,
2703
+ "learning_rate": 0.0001533823377964791,
2704
+ "loss": 2.8182,
2705
+ "step": 384
2706
+ },
2707
+ {
2708
+ "epoch": 0.32748538011695905,
2709
+ "grad_norm": 0.3890111446380615,
2710
+ "learning_rate": 0.0001531543125605956,
2711
+ "loss": 2.6873,
2712
+ "step": 385
2713
+ },
2714
+ {
2715
+ "epoch": 0.3283359914938862,
2716
+ "grad_norm": 0.3929746747016907,
2717
+ "learning_rate": 0.0001529259014548253,
2718
+ "loss": 2.6169,
2719
+ "step": 386
2720
+ },
2721
+ {
2722
+ "epoch": 0.3291866028708134,
2723
+ "grad_norm": 0.4354581832885742,
2724
+ "learning_rate": 0.0001526971061373021,
2725
+ "loss": 2.681,
2726
+ "step": 387
2727
+ },
2728
+ {
2729
+ "epoch": 0.3300372142477406,
2730
+ "grad_norm": 0.4014440178871155,
2731
+ "learning_rate": 0.00015246792826894906,
2732
+ "loss": 2.6601,
2733
+ "step": 388
2734
+ },
2735
+ {
2736
+ "epoch": 0.33088782562466773,
2737
+ "grad_norm": 0.41521206498146057,
2738
+ "learning_rate": 0.00015223836951346634,
2739
+ "loss": 2.7763,
2740
+ "step": 389
2741
+ },
2742
+ {
2743
+ "epoch": 0.3317384370015949,
2744
+ "grad_norm": 0.43811067938804626,
2745
+ "learning_rate": 0.00015200843153731906,
2746
+ "loss": 2.7373,
2747
+ "step": 390
2748
+ },
2749
+ {
2750
+ "epoch": 0.33258904837852205,
2751
+ "grad_norm": 0.4687197208404541,
2752
+ "learning_rate": 0.0001517781160097254,
2753
+ "loss": 2.6432,
2754
+ "step": 391
2755
+ },
2756
+ {
2757
+ "epoch": 0.3334396597554492,
2758
+ "grad_norm": 0.4998420178890228,
2759
+ "learning_rate": 0.00015154742460264425,
2760
+ "loss": 2.6434,
2761
+ "step": 392
2762
+ },
2763
+ {
2764
+ "epoch": 0.3342902711323764,
2765
+ "grad_norm": 0.4983424246311188,
2766
+ "learning_rate": 0.0001513163589907632,
2767
+ "loss": 2.7619,
2768
+ "step": 393
2769
+ },
2770
+ {
2771
+ "epoch": 0.3351408825093036,
2772
+ "grad_norm": 0.5066902041435242,
2773
+ "learning_rate": 0.00015108492085148632,
2774
+ "loss": 2.6515,
2775
+ "step": 394
2776
+ },
2777
+ {
2778
+ "epoch": 0.33599149388623073,
2779
+ "grad_norm": 0.5106616020202637,
2780
+ "learning_rate": 0.00015085311186492206,
2781
+ "loss": 2.6288,
2782
+ "step": 395
2783
+ },
2784
+ {
2785
+ "epoch": 0.3368421052631579,
2786
+ "grad_norm": 0.6036600470542908,
2787
+ "learning_rate": 0.00015062093371387097,
2788
+ "loss": 2.6391,
2789
+ "step": 396
2790
+ },
2791
+ {
2792
+ "epoch": 0.33769271664008504,
2793
+ "grad_norm": 0.6260906457901001,
2794
+ "learning_rate": 0.00015038838808381354,
2795
+ "loss": 2.8623,
2796
+ "step": 397
2797
+ },
2798
+ {
2799
+ "epoch": 0.3385433280170122,
2800
+ "grad_norm": 0.6070663332939148,
2801
+ "learning_rate": 0.00015015547666289797,
2802
+ "loss": 2.615,
2803
+ "step": 398
2804
+ },
2805
+ {
2806
+ "epoch": 0.3393939393939394,
2807
+ "grad_norm": 0.66013503074646,
2808
+ "learning_rate": 0.00014992220114192785,
2809
+ "loss": 2.6865,
2810
+ "step": 399
2811
+ },
2812
+ {
2813
+ "epoch": 0.34024455077086657,
2814
+ "grad_norm": 0.7371327877044678,
2815
+ "learning_rate": 0.00014968856321434998,
2816
+ "loss": 2.6959,
2817
+ "step": 400
2818
+ },
2819
+ {
2820
+ "epoch": 0.34109516214779373,
2821
+ "grad_norm": 0.3081108629703522,
2822
+ "learning_rate": 0.00014945456457624197,
2823
+ "loss": 2.321,
2824
+ "step": 401
2825
+ },
2826
+ {
2827
+ "epoch": 0.3419457735247209,
2828
+ "grad_norm": 0.37835538387298584,
2829
+ "learning_rate": 0.0001492202069263,
2830
+ "loss": 2.5144,
2831
+ "step": 402
2832
+ },
2833
+ {
2834
+ "epoch": 0.34279638490164804,
2835
+ "grad_norm": 0.3184291422367096,
2836
+ "learning_rate": 0.00014898549196582645,
2837
+ "loss": 2.5783,
2838
+ "step": 403
2839
+ },
2840
+ {
2841
+ "epoch": 0.3436469962785752,
2842
+ "grad_norm": 0.3378361165523529,
2843
+ "learning_rate": 0.00014875042139871766,
2844
+ "loss": 2.667,
2845
+ "step": 404
2846
+ },
2847
+ {
2848
+ "epoch": 0.3444976076555024,
2849
+ "grad_norm": 0.285756379365921,
2850
+ "learning_rate": 0.00014851499693145135,
2851
+ "loss": 2.5316,
2852
+ "step": 405
2853
+ },
2854
+ {
2855
+ "epoch": 0.34534821903242957,
2856
+ "grad_norm": 0.28837427496910095,
2857
+ "learning_rate": 0.00014827922027307451,
2858
+ "loss": 2.5012,
2859
+ "step": 406
2860
+ },
2861
+ {
2862
+ "epoch": 0.34619883040935673,
2863
+ "grad_norm": 0.30004727840423584,
2864
+ "learning_rate": 0.0001480430931351906,
2865
+ "loss": 2.5237,
2866
+ "step": 407
2867
+ },
2868
+ {
2869
+ "epoch": 0.3470494417862839,
2870
+ "grad_norm": 0.28527382016181946,
2871
+ "learning_rate": 0.00014780661723194757,
2872
+ "loss": 2.5067,
2873
+ "step": 408
2874
+ },
2875
+ {
2876
+ "epoch": 0.34790005316321104,
2877
+ "grad_norm": 0.26983842253685,
2878
+ "learning_rate": 0.00014756979428002514,
2879
+ "loss": 2.5577,
2880
+ "step": 409
2881
+ },
2882
+ {
2883
+ "epoch": 0.3487506645401382,
2884
+ "grad_norm": 0.2686617076396942,
2885
+ "learning_rate": 0.00014733262599862234,
2886
+ "loss": 2.5267,
2887
+ "step": 410
2888
+ },
2889
+ {
2890
+ "epoch": 0.3496012759170654,
2891
+ "grad_norm": 0.26147857308387756,
2892
+ "learning_rate": 0.00014709511410944523,
2893
+ "loss": 2.4459,
2894
+ "step": 411
2895
+ },
2896
+ {
2897
+ "epoch": 0.35045188729399257,
2898
+ "grad_norm": 0.29142996668815613,
2899
+ "learning_rate": 0.00014685726033669412,
2900
+ "loss": 2.7246,
2901
+ "step": 412
2902
+ },
2903
+ {
2904
+ "epoch": 0.3513024986709197,
2905
+ "grad_norm": 0.29214030504226685,
2906
+ "learning_rate": 0.00014661906640705129,
2907
+ "loss": 2.6422,
2908
+ "step": 413
2909
+ },
2910
+ {
2911
+ "epoch": 0.3521531100478469,
2912
+ "grad_norm": 0.2727803885936737,
2913
+ "learning_rate": 0.00014638053404966836,
2914
+ "loss": 2.6416,
2915
+ "step": 414
2916
+ },
2917
+ {
2918
+ "epoch": 0.35300372142477404,
2919
+ "grad_norm": 0.2637098431587219,
2920
+ "learning_rate": 0.0001461416649961537,
2921
+ "loss": 2.5555,
2922
+ "step": 415
2923
+ },
2924
+ {
2925
+ "epoch": 0.3538543328017012,
2926
+ "grad_norm": 0.2736997902393341,
2927
+ "learning_rate": 0.00014590246098055996,
2928
+ "loss": 2.7423,
2929
+ "step": 416
2930
+ },
2931
+ {
2932
+ "epoch": 0.3547049441786284,
2933
+ "grad_norm": 0.2691054940223694,
2934
+ "learning_rate": 0.0001456629237393713,
2935
+ "loss": 2.7818,
2936
+ "step": 417
2937
+ },
2938
+ {
2939
+ "epoch": 0.35555555555555557,
2940
+ "grad_norm": 0.28304579854011536,
2941
+ "learning_rate": 0.0001454230550114911,
2942
+ "loss": 2.554,
2943
+ "step": 418
2944
+ },
2945
+ {
2946
+ "epoch": 0.3564061669324827,
2947
+ "grad_norm": 0.2698013484477997,
2948
+ "learning_rate": 0.00014518285653822898,
2949
+ "loss": 2.5155,
2950
+ "step": 419
2951
+ },
2952
+ {
2953
+ "epoch": 0.3572567783094099,
2954
+ "grad_norm": 0.25874024629592896,
2955
+ "learning_rate": 0.00014494233006328837,
2956
+ "loss": 2.4841,
2957
+ "step": 420
2958
+ },
2959
+ {
2960
+ "epoch": 0.35810738968633704,
2961
+ "grad_norm": 0.2918216586112976,
2962
+ "learning_rate": 0.00014470147733275387,
2963
+ "loss": 2.7489,
2964
+ "step": 421
2965
+ },
2966
+ {
2967
+ "epoch": 0.3589580010632642,
2968
+ "grad_norm": 0.28201210498809814,
2969
+ "learning_rate": 0.0001444603000950784,
2970
+ "loss": 2.5709,
2971
+ "step": 422
2972
+ },
2973
+ {
2974
+ "epoch": 0.3598086124401914,
2975
+ "grad_norm": 0.3077748119831085,
2976
+ "learning_rate": 0.0001442188001010707,
2977
+ "loss": 2.6089,
2978
+ "step": 423
2979
+ },
2980
+ {
2981
+ "epoch": 0.36065922381711857,
2982
+ "grad_norm": 0.2970117926597595,
2983
+ "learning_rate": 0.00014397697910388248,
2984
+ "loss": 2.6171,
2985
+ "step": 424
2986
+ },
2987
+ {
2988
+ "epoch": 0.3615098351940457,
2989
+ "grad_norm": 0.302947074174881,
2990
+ "learning_rate": 0.00014373483885899582,
2991
+ "loss": 2.4033,
2992
+ "step": 425
2993
+ },
2994
+ {
2995
+ "epoch": 0.3623604465709729,
2996
+ "grad_norm": 0.31938815116882324,
2997
+ "learning_rate": 0.00014349238112421024,
2998
+ "loss": 2.7042,
2999
+ "step": 426
3000
+ },
3001
+ {
3002
+ "epoch": 0.36321105794790004,
3003
+ "grad_norm": 0.3481922447681427,
3004
+ "learning_rate": 0.00014324960765963018,
3005
+ "loss": 2.6479,
3006
+ "step": 427
3007
+ },
3008
+ {
3009
+ "epoch": 0.3640616693248272,
3010
+ "grad_norm": 0.3142179846763611,
3011
+ "learning_rate": 0.00014300652022765207,
3012
+ "loss": 2.5285,
3013
+ "step": 428
3014
+ },
3015
+ {
3016
+ "epoch": 0.3649122807017544,
3017
+ "grad_norm": 0.3226439952850342,
3018
+ "learning_rate": 0.00014276312059295147,
3019
+ "loss": 2.5389,
3020
+ "step": 429
3021
+ },
3022
+ {
3023
+ "epoch": 0.36576289207868157,
3024
+ "grad_norm": 0.401301771402359,
3025
+ "learning_rate": 0.00014251941052247045,
3026
+ "loss": 2.8749,
3027
+ "step": 430
3028
+ },
3029
+ {
3030
+ "epoch": 0.3666135034556087,
3031
+ "grad_norm": 0.3587849736213684,
3032
+ "learning_rate": 0.00014227539178540463,
3033
+ "loss": 2.7549,
3034
+ "step": 431
3035
+ },
3036
+ {
3037
+ "epoch": 0.3674641148325359,
3038
+ "grad_norm": 0.38098907470703125,
3039
+ "learning_rate": 0.00014203106615319038,
3040
+ "loss": 2.6159,
3041
+ "step": 432
3042
+ },
3043
+ {
3044
+ "epoch": 0.36831472620946304,
3045
+ "grad_norm": 0.402971088886261,
3046
+ "learning_rate": 0.00014178643539949196,
3047
+ "loss": 2.6626,
3048
+ "step": 433
3049
+ },
3050
+ {
3051
+ "epoch": 0.3691653375863902,
3052
+ "grad_norm": 0.3960564136505127,
3053
+ "learning_rate": 0.00014154150130018866,
3054
+ "loss": 2.8099,
3055
+ "step": 434
3056
+ },
3057
+ {
3058
+ "epoch": 0.3700159489633174,
3059
+ "grad_norm": 0.41555696725845337,
3060
+ "learning_rate": 0.00014129626563336178,
3061
+ "loss": 2.7282,
3062
+ "step": 435
3063
+ },
3064
+ {
3065
+ "epoch": 0.37086656034024457,
3066
+ "grad_norm": 0.3991285264492035,
3067
+ "learning_rate": 0.000141050730179282,
3068
+ "loss": 2.5909,
3069
+ "step": 436
3070
+ },
3071
+ {
3072
+ "epoch": 0.3717171717171717,
3073
+ "grad_norm": 0.442220002412796,
3074
+ "learning_rate": 0.00014080489672039606,
3075
+ "loss": 2.8671,
3076
+ "step": 437
3077
+ },
3078
+ {
3079
+ "epoch": 0.3725677830940989,
3080
+ "grad_norm": 0.4263823628425598,
3081
+ "learning_rate": 0.0001405587670413143,
3082
+ "loss": 2.5901,
3083
+ "step": 438
3084
+ },
3085
+ {
3086
+ "epoch": 0.37341839447102604,
3087
+ "grad_norm": 0.45683711767196655,
3088
+ "learning_rate": 0.00014031234292879725,
3089
+ "loss": 2.7801,
3090
+ "step": 439
3091
+ },
3092
+ {
3093
+ "epoch": 0.3742690058479532,
3094
+ "grad_norm": 0.4672732353210449,
3095
+ "learning_rate": 0.00014006562617174294,
3096
+ "loss": 2.696,
3097
+ "step": 440
3098
+ },
3099
+ {
3100
+ "epoch": 0.3751196172248804,
3101
+ "grad_norm": 0.45676231384277344,
3102
+ "learning_rate": 0.0001398186185611738,
3103
+ "loss": 2.6197,
3104
+ "step": 441
3105
+ },
3106
+ {
3107
+ "epoch": 0.37597022860180757,
3108
+ "grad_norm": 0.4717809855937958,
3109
+ "learning_rate": 0.00013957132189022374,
3110
+ "loss": 2.7676,
3111
+ "step": 442
3112
+ },
3113
+ {
3114
+ "epoch": 0.3768208399787347,
3115
+ "grad_norm": 0.4931057393550873,
3116
+ "learning_rate": 0.00013932373795412503,
3117
+ "loss": 2.7968,
3118
+ "step": 443
3119
+ },
3120
+ {
3121
+ "epoch": 0.3776714513556619,
3122
+ "grad_norm": 0.5112429857254028,
3123
+ "learning_rate": 0.0001390758685501954,
3124
+ "loss": 2.5947,
3125
+ "step": 444
3126
+ },
3127
+ {
3128
+ "epoch": 0.37852206273258904,
3129
+ "grad_norm": 0.5512686371803284,
3130
+ "learning_rate": 0.00013882771547782475,
3131
+ "loss": 2.6041,
3132
+ "step": 445
3133
+ },
3134
+ {
3135
+ "epoch": 0.3793726741095162,
3136
+ "grad_norm": 0.5506839752197266,
3137
+ "learning_rate": 0.0001385792805384625,
3138
+ "loss": 2.7389,
3139
+ "step": 446
3140
+ },
3141
+ {
3142
+ "epoch": 0.3802232854864434,
3143
+ "grad_norm": 0.5831094980239868,
3144
+ "learning_rate": 0.00013833056553560398,
3145
+ "loss": 2.8867,
3146
+ "step": 447
3147
+ },
3148
+ {
3149
+ "epoch": 0.38107389686337056,
3150
+ "grad_norm": 0.6127706170082092,
3151
+ "learning_rate": 0.00013808157227477788,
3152
+ "loss": 2.689,
3153
+ "step": 448
3154
+ },
3155
+ {
3156
+ "epoch": 0.3819245082402977,
3157
+ "grad_norm": 0.6911614537239075,
3158
+ "learning_rate": 0.00013783230256353266,
3159
+ "loss": 2.9826,
3160
+ "step": 449
3161
+ },
3162
+ {
3163
+ "epoch": 0.3827751196172249,
3164
+ "grad_norm": 0.7095205187797546,
3165
+ "learning_rate": 0.00013758275821142382,
3166
+ "loss": 2.7725,
3167
+ "step": 450
3168
+ },
3169
+ {
3170
+ "epoch": 0.38362573099415204,
3171
+ "grad_norm": 0.31148967146873474,
3172
+ "learning_rate": 0.00013733294103000055,
3173
+ "loss": 2.5203,
3174
+ "step": 451
3175
+ },
3176
+ {
3177
+ "epoch": 0.3844763423710792,
3178
+ "grad_norm": 0.3002786338329315,
3179
+ "learning_rate": 0.00013708285283279252,
3180
+ "loss": 2.5911,
3181
+ "step": 452
3182
+ },
3183
+ {
3184
+ "epoch": 0.3853269537480064,
3185
+ "grad_norm": 0.29820379614830017,
3186
+ "learning_rate": 0.00013683249543529696,
3187
+ "loss": 2.3441,
3188
+ "step": 453
3189
+ },
3190
+ {
3191
+ "epoch": 0.38617756512493356,
3192
+ "grad_norm": 0.29162371158599854,
3193
+ "learning_rate": 0.00013658187065496532,
3194
+ "loss": 2.4791,
3195
+ "step": 454
3196
+ },
3197
+ {
3198
+ "epoch": 0.3870281765018607,
3199
+ "grad_norm": 0.2905353307723999,
3200
+ "learning_rate": 0.00013633098031119002,
3201
+ "loss": 2.4208,
3202
+ "step": 455
3203
+ },
3204
+ {
3205
+ "epoch": 0.3878787878787879,
3206
+ "grad_norm": 0.28394779562950134,
3207
+ "learning_rate": 0.00013607982622529133,
3208
+ "loss": 2.6468,
3209
+ "step": 456
3210
+ },
3211
+ {
3212
+ "epoch": 0.38872939925571504,
3213
+ "grad_norm": 0.2683579921722412,
3214
+ "learning_rate": 0.00013582841022050424,
3215
+ "loss": 2.5199,
3216
+ "step": 457
3217
+ },
3218
+ {
3219
+ "epoch": 0.3895800106326422,
3220
+ "grad_norm": 0.2719745934009552,
3221
+ "learning_rate": 0.00013557673412196503,
3222
+ "loss": 2.4813,
3223
+ "step": 458
3224
+ },
3225
+ {
3226
+ "epoch": 0.39043062200956935,
3227
+ "grad_norm": 0.26781052350997925,
3228
+ "learning_rate": 0.00013532479975669808,
3229
+ "loss": 2.5296,
3230
+ "step": 459
3231
+ },
3232
+ {
3233
+ "epoch": 0.39128123338649656,
3234
+ "grad_norm": 0.26786506175994873,
3235
+ "learning_rate": 0.00013507260895360274,
3236
+ "loss": 2.5254,
3237
+ "step": 460
3238
+ },
3239
+ {
3240
+ "epoch": 0.3921318447634237,
3241
+ "grad_norm": 0.27148234844207764,
3242
+ "learning_rate": 0.0001348201635434399,
3243
+ "loss": 2.6415,
3244
+ "step": 461
3245
+ },
3246
+ {
3247
+ "epoch": 0.3929824561403509,
3248
+ "grad_norm": 0.29129862785339355,
3249
+ "learning_rate": 0.00013456746535881871,
3250
+ "loss": 2.6098,
3251
+ "step": 462
3252
+ },
3253
+ {
3254
+ "epoch": 0.39383306751727803,
3255
+ "grad_norm": 0.2636375427246094,
3256
+ "learning_rate": 0.00013431451623418343,
3257
+ "loss": 2.4875,
3258
+ "step": 463
3259
+ },
3260
+ {
3261
+ "epoch": 0.3946836788942052,
3262
+ "grad_norm": 0.2701190114021301,
3263
+ "learning_rate": 0.00013406131800579985,
3264
+ "loss": 2.7151,
3265
+ "step": 464
3266
+ },
3267
+ {
3268
+ "epoch": 0.39553429027113235,
3269
+ "grad_norm": 0.2739466428756714,
3270
+ "learning_rate": 0.00013380787251174225,
3271
+ "loss": 2.6465,
3272
+ "step": 465
3273
+ },
3274
+ {
3275
+ "epoch": 0.39638490164805956,
3276
+ "grad_norm": 0.2672434151172638,
3277
+ "learning_rate": 0.00013355418159187985,
3278
+ "loss": 2.6823,
3279
+ "step": 466
3280
+ },
3281
+ {
3282
+ "epoch": 0.3972355130249867,
3283
+ "grad_norm": 0.26863133907318115,
3284
+ "learning_rate": 0.00013330024708786353,
3285
+ "loss": 2.5357,
3286
+ "step": 467
3287
+ },
3288
+ {
3289
+ "epoch": 0.3980861244019139,
3290
+ "grad_norm": 0.2704436779022217,
3291
+ "learning_rate": 0.00013304607084311244,
3292
+ "loss": 2.6887,
3293
+ "step": 468
3294
+ },
3295
+ {
3296
+ "epoch": 0.39893673577884103,
3297
+ "grad_norm": 0.2772809863090515,
3298
+ "learning_rate": 0.00013279165470280065,
3299
+ "loss": 2.6992,
3300
+ "step": 469
3301
+ },
3302
+ {
3303
+ "epoch": 0.3997873471557682,
3304
+ "grad_norm": 0.3024834394454956,
3305
+ "learning_rate": 0.0001325370005138437,
3306
+ "loss": 2.753,
3307
+ "step": 470
3308
+ },
3309
+ {
3310
+ "epoch": 0.40063795853269535,
3311
+ "grad_norm": 0.2810865342617035,
3312
+ "learning_rate": 0.00013228211012488532,
3313
+ "loss": 2.7921,
3314
+ "step": 471
3315
+ },
3316
+ {
3317
+ "epoch": 0.40148856990962256,
3318
+ "grad_norm": 0.28023043274879456,
3319
+ "learning_rate": 0.00013202698538628376,
3320
+ "loss": 2.2935,
3321
+ "step": 472
3322
+ },
3323
+ {
3324
+ "epoch": 0.4023391812865497,
3325
+ "grad_norm": 0.30379030108451843,
3326
+ "learning_rate": 0.0001317716281500987,
3327
+ "loss": 2.5575,
3328
+ "step": 473
3329
+ },
3330
+ {
3331
+ "epoch": 0.4031897926634769,
3332
+ "grad_norm": 0.29648759961128235,
3333
+ "learning_rate": 0.00013151604027007745,
3334
+ "loss": 2.4384,
3335
+ "step": 474
3336
+ },
3337
+ {
3338
+ "epoch": 0.40404040404040403,
3339
+ "grad_norm": 0.32276931405067444,
3340
+ "learning_rate": 0.00013126022360164172,
3341
+ "loss": 2.7529,
3342
+ "step": 475
3343
+ },
3344
+ {
3345
+ "epoch": 0.4048910154173312,
3346
+ "grad_norm": 0.3146274983882904,
3347
+ "learning_rate": 0.00013100418000187419,
3348
+ "loss": 2.473,
3349
+ "step": 476
3350
+ },
3351
+ {
3352
+ "epoch": 0.40574162679425835,
3353
+ "grad_norm": 0.33162757754325867,
3354
+ "learning_rate": 0.00013074791132950485,
3355
+ "loss": 2.5832,
3356
+ "step": 477
3357
+ },
3358
+ {
3359
+ "epoch": 0.40659223817118556,
3360
+ "grad_norm": 0.33521875739097595,
3361
+ "learning_rate": 0.00013049141944489748,
3362
+ "loss": 2.4807,
3363
+ "step": 478
3364
+ },
3365
+ {
3366
+ "epoch": 0.4074428495481127,
3367
+ "grad_norm": 0.3724415898323059,
3368
+ "learning_rate": 0.00013023470621003643,
3369
+ "loss": 2.8245,
3370
+ "step": 479
3371
+ },
3372
+ {
3373
+ "epoch": 0.4082934609250399,
3374
+ "grad_norm": 0.3634830117225647,
3375
+ "learning_rate": 0.00012997777348851288,
3376
+ "loss": 2.5921,
3377
+ "step": 480
3378
+ },
3379
+ {
3380
+ "epoch": 0.40914407230196703,
3381
+ "grad_norm": 0.38656124472618103,
3382
+ "learning_rate": 0.0001297206231455113,
3383
+ "loss": 2.619,
3384
+ "step": 481
3385
+ },
3386
+ {
3387
+ "epoch": 0.4099946836788942,
3388
+ "grad_norm": 0.3939076066017151,
3389
+ "learning_rate": 0.00012946325704779602,
3390
+ "loss": 2.7466,
3391
+ "step": 482
3392
+ },
3393
+ {
3394
+ "epoch": 0.41084529505582135,
3395
+ "grad_norm": 0.37405261397361755,
3396
+ "learning_rate": 0.00012920567706369758,
3397
+ "loss": 2.764,
3398
+ "step": 483
3399
+ },
3400
+ {
3401
+ "epoch": 0.41169590643274856,
3402
+ "grad_norm": 0.3894766569137573,
3403
+ "learning_rate": 0.0001289478850630993,
3404
+ "loss": 2.7373,
3405
+ "step": 484
3406
+ },
3407
+ {
3408
+ "epoch": 0.4125465178096757,
3409
+ "grad_norm": 0.44012099504470825,
3410
+ "learning_rate": 0.00012868988291742347,
3411
+ "loss": 2.6475,
3412
+ "step": 485
3413
+ },
3414
+ {
3415
+ "epoch": 0.4133971291866029,
3416
+ "grad_norm": 0.41175583004951477,
3417
+ "learning_rate": 0.0001284316724996181,
3418
+ "loss": 2.7573,
3419
+ "step": 486
3420
+ },
3421
+ {
3422
+ "epoch": 0.41424774056353003,
3423
+ "grad_norm": 0.4406805634498596,
3424
+ "learning_rate": 0.00012817325568414297,
3425
+ "loss": 2.5429,
3426
+ "step": 487
3427
+ },
3428
+ {
3429
+ "epoch": 0.4150983519404572,
3430
+ "grad_norm": 0.4783489406108856,
3431
+ "learning_rate": 0.0001279146343469563,
3432
+ "loss": 2.8275,
3433
+ "step": 488
3434
+ },
3435
+ {
3436
+ "epoch": 0.41594896331738435,
3437
+ "grad_norm": 0.44115763902664185,
3438
+ "learning_rate": 0.00012765581036550095,
3439
+ "loss": 2.6858,
3440
+ "step": 489
3441
+ },
3442
+ {
3443
+ "epoch": 0.41679957469431156,
3444
+ "grad_norm": 0.5237467885017395,
3445
+ "learning_rate": 0.0001273967856186909,
3446
+ "loss": 2.8638,
3447
+ "step": 490
3448
+ },
3449
+ {
3450
+ "epoch": 0.4176501860712387,
3451
+ "grad_norm": 0.5071147680282593,
3452
+ "learning_rate": 0.00012713756198689757,
3453
+ "loss": 2.8603,
3454
+ "step": 491
3455
+ },
3456
+ {
3457
+ "epoch": 0.4185007974481659,
3458
+ "grad_norm": 0.5125464797019958,
3459
+ "learning_rate": 0.00012687814135193612,
3460
+ "loss": 3.0048,
3461
+ "step": 492
3462
+ },
3463
+ {
3464
+ "epoch": 0.41935140882509303,
3465
+ "grad_norm": 0.5373572707176208,
3466
+ "learning_rate": 0.0001266185255970519,
3467
+ "loss": 2.5727,
3468
+ "step": 493
3469
+ },
3470
+ {
3471
+ "epoch": 0.4202020202020202,
3472
+ "grad_norm": 0.4913314878940582,
3473
+ "learning_rate": 0.00012635871660690676,
3474
+ "loss": 2.6501,
3475
+ "step": 494
3476
+ },
3477
+ {
3478
+ "epoch": 0.42105263157894735,
3479
+ "grad_norm": 0.5953575968742371,
3480
+ "learning_rate": 0.00012609871626756522,
3481
+ "loss": 2.8674,
3482
+ "step": 495
3483
+ },
3484
+ {
3485
+ "epoch": 0.42190324295587456,
3486
+ "grad_norm": 0.5852685570716858,
3487
+ "learning_rate": 0.00012583852646648095,
3488
+ "loss": 2.6855,
3489
+ "step": 496
3490
+ },
3491
+ {
3492
+ "epoch": 0.4227538543328017,
3493
+ "grad_norm": 0.6449065804481506,
3494
+ "learning_rate": 0.00012557814909248296,
3495
+ "loss": 2.7688,
3496
+ "step": 497
3497
+ },
3498
+ {
3499
+ "epoch": 0.4236044657097289,
3500
+ "grad_norm": 0.6615833640098572,
3501
+ "learning_rate": 0.000125317586035762,
3502
+ "loss": 2.7446,
3503
+ "step": 498
3504
+ },
3505
+ {
3506
+ "epoch": 0.42445507708665603,
3507
+ "grad_norm": 0.6561222076416016,
3508
+ "learning_rate": 0.0001250568391878567,
3509
+ "loss": 2.801,
3510
+ "step": 499
3511
+ },
3512
+ {
3513
+ "epoch": 0.4253056884635832,
3514
+ "grad_norm": 0.8370924592018127,
3515
+ "learning_rate": 0.00012479591044163997,
3516
+ "loss": 2.9991,
3517
+ "step": 500
3518
+ },
3519
+ {
3520
+ "epoch": 0.42615629984051034,
3521
+ "grad_norm": 0.3273813724517822,
3522
+ "learning_rate": 0.0001245348016913051,
3523
+ "loss": 2.5914,
3524
+ "step": 501
3525
+ },
3526
+ {
3527
+ "epoch": 0.42700691121743756,
3528
+ "grad_norm": 0.3103164732456207,
3529
+ "learning_rate": 0.00012427351483235223,
3530
+ "loss": 2.6331,
3531
+ "step": 502
3532
+ },
3533
+ {
3534
+ "epoch": 0.4278575225943647,
3535
+ "grad_norm": 0.3061564862728119,
3536
+ "learning_rate": 0.00012401205176157447,
3537
+ "loss": 2.5927,
3538
+ "step": 503
3539
+ },
3540
+ {
3541
+ "epoch": 0.42870813397129187,
3542
+ "grad_norm": 0.2943616509437561,
3543
+ "learning_rate": 0.00012375041437704393,
3544
+ "loss": 2.4734,
3545
+ "step": 504
3546
+ },
3547
+ {
3548
+ "epoch": 0.42955874534821903,
3549
+ "grad_norm": 0.29883497953414917,
3550
+ "learning_rate": 0.00012348860457809838,
3551
+ "loss": 2.4734,
3552
+ "step": 505
3553
+ },
3554
+ {
3555
+ "epoch": 0.4304093567251462,
3556
+ "grad_norm": 0.295578271150589,
3557
+ "learning_rate": 0.00012322662426532708,
3558
+ "loss": 2.3561,
3559
+ "step": 506
3560
+ },
3561
+ {
3562
+ "epoch": 0.43125996810207334,
3563
+ "grad_norm": 0.3073442578315735,
3564
+ "learning_rate": 0.00012296447534055716,
3565
+ "loss": 2.5489,
3566
+ "step": 507
3567
+ },
3568
+ {
3569
+ "epoch": 0.43211057947900056,
3570
+ "grad_norm": 0.3207886517047882,
3571
+ "learning_rate": 0.00012270215970683977,
3572
+ "loss": 2.6984,
3573
+ "step": 508
3574
+ },
3575
+ {
3576
+ "epoch": 0.4329611908559277,
3577
+ "grad_norm": 0.26681843400001526,
3578
+ "learning_rate": 0.00012243967926843627,
3579
+ "loss": 2.4313,
3580
+ "step": 509
3581
+ },
3582
+ {
3583
+ "epoch": 0.43381180223285487,
3584
+ "grad_norm": 0.29009976983070374,
3585
+ "learning_rate": 0.00012217703593080445,
3586
+ "loss": 2.6128,
3587
+ "step": 510
3588
+ },
3589
+ {
3590
+ "epoch": 0.43466241360978203,
3591
+ "grad_norm": 0.27712225914001465,
3592
+ "learning_rate": 0.00012191423160058462,
3593
+ "loss": 2.4976,
3594
+ "step": 511
3595
+ },
3596
+ {
3597
+ "epoch": 0.4355130249867092,
3598
+ "grad_norm": 0.30184635519981384,
3599
+ "learning_rate": 0.00012165126818558572,
3600
+ "loss": 2.6912,
3601
+ "step": 512
3602
+ },
3603
+ {
3604
+ "epoch": 0.43636363636363634,
3605
+ "grad_norm": 0.28122004866600037,
3606
+ "learning_rate": 0.00012138814759477176,
3607
+ "loss": 2.6935,
3608
+ "step": 513
3609
+ },
3610
+ {
3611
+ "epoch": 0.43721424774056356,
3612
+ "grad_norm": 0.2680952250957489,
3613
+ "learning_rate": 0.00012112487173824753,
3614
+ "loss": 2.5607,
3615
+ "step": 514
3616
+ },
3617
+ {
3618
+ "epoch": 0.4380648591174907,
3619
+ "grad_norm": 0.26283374428749084,
3620
+ "learning_rate": 0.00012086144252724513,
3621
+ "loss": 2.5001,
3622
+ "step": 515
3623
+ },
3624
+ {
3625
+ "epoch": 0.43891547049441787,
3626
+ "grad_norm": 0.26960310339927673,
3627
+ "learning_rate": 0.00012059786187410984,
3628
+ "loss": 2.609,
3629
+ "step": 516
3630
+ },
3631
+ {
3632
+ "epoch": 0.439766081871345,
3633
+ "grad_norm": 0.2755014896392822,
3634
+ "learning_rate": 0.00012033413169228635,
3635
+ "loss": 2.6356,
3636
+ "step": 517
3637
+ },
3638
+ {
3639
+ "epoch": 0.4406166932482722,
3640
+ "grad_norm": 0.2706344723701477,
3641
+ "learning_rate": 0.00012007025389630484,
3642
+ "loss": 2.6909,
3643
+ "step": 518
3644
+ },
3645
+ {
3646
+ "epoch": 0.44146730462519934,
3647
+ "grad_norm": 0.2639751434326172,
3648
+ "learning_rate": 0.00011980623040176704,
3649
+ "loss": 2.542,
3650
+ "step": 519
3651
+ },
3652
+ {
3653
+ "epoch": 0.44231791600212655,
3654
+ "grad_norm": 0.2747778594493866,
3655
+ "learning_rate": 0.00011954206312533245,
3656
+ "loss": 2.4773,
3657
+ "step": 520
3658
+ },
3659
+ {
3660
+ "epoch": 0.4431685273790537,
3661
+ "grad_norm": 0.2990424931049347,
3662
+ "learning_rate": 0.0001192777539847043,
3663
+ "loss": 2.6881,
3664
+ "step": 521
3665
+ },
3666
+ {
3667
+ "epoch": 0.44401913875598087,
3668
+ "grad_norm": 0.27671095728874207,
3669
+ "learning_rate": 0.00011901330489861564,
3670
+ "loss": 2.5495,
3671
+ "step": 522
3672
+ },
3673
+ {
3674
+ "epoch": 0.444869750132908,
3675
+ "grad_norm": 0.3051941394805908,
3676
+ "learning_rate": 0.00011874871778681555,
3677
+ "loss": 2.7591,
3678
+ "step": 523
3679
+ },
3680
+ {
3681
+ "epoch": 0.4457203615098352,
3682
+ "grad_norm": 0.2990604043006897,
3683
+ "learning_rate": 0.00011848399457005495,
3684
+ "loss": 2.5765,
3685
+ "step": 524
3686
+ },
3687
+ {
3688
+ "epoch": 0.44657097288676234,
3689
+ "grad_norm": 0.3488616943359375,
3690
+ "learning_rate": 0.00011821913717007298,
3691
+ "loss": 2.634,
3692
+ "step": 525
3693
+ },
3694
+ {
3695
+ "epoch": 0.44742158426368955,
3696
+ "grad_norm": 0.3207804262638092,
3697
+ "learning_rate": 0.00011795414750958265,
3698
+ "loss": 2.5632,
3699
+ "step": 526
3700
+ },
3701
+ {
3702
+ "epoch": 0.4482721956406167,
3703
+ "grad_norm": 0.3244103491306305,
3704
+ "learning_rate": 0.0001176890275122573,
3705
+ "loss": 2.5784,
3706
+ "step": 527
3707
+ },
3708
+ {
3709
+ "epoch": 0.44912280701754387,
3710
+ "grad_norm": 0.33527323603630066,
3711
+ "learning_rate": 0.00011742377910271639,
3712
+ "loss": 2.7016,
3713
+ "step": 528
3714
+ },
3715
+ {
3716
+ "epoch": 0.449973418394471,
3717
+ "grad_norm": 0.3452233672142029,
3718
+ "learning_rate": 0.00011715840420651152,
3719
+ "loss": 2.5495,
3720
+ "step": 529
3721
+ },
3722
+ {
3723
+ "epoch": 0.4508240297713982,
3724
+ "grad_norm": 0.36391714215278625,
3725
+ "learning_rate": 0.00011689290475011259,
3726
+ "loss": 2.662,
3727
+ "step": 530
3728
+ },
3729
+ {
3730
+ "epoch": 0.45167464114832534,
3731
+ "grad_norm": 0.41914063692092896,
3732
+ "learning_rate": 0.00011662728266089364,
3733
+ "loss": 2.8876,
3734
+ "step": 531
3735
+ },
3736
+ {
3737
+ "epoch": 0.45252525252525255,
3738
+ "grad_norm": 0.4124680459499359,
3739
+ "learning_rate": 0.00011636153986711906,
3740
+ "loss": 2.7271,
3741
+ "step": 532
3742
+ },
3743
+ {
3744
+ "epoch": 0.4533758639021797,
3745
+ "grad_norm": 0.3957962393760681,
3746
+ "learning_rate": 0.00011609567829792944,
3747
+ "loss": 2.5991,
3748
+ "step": 533
3749
+ },
3750
+ {
3751
+ "epoch": 0.45422647527910687,
3752
+ "grad_norm": 0.401443213224411,
3753
+ "learning_rate": 0.00011582969988332757,
3754
+ "loss": 2.7777,
3755
+ "step": 534
3756
+ },
3757
+ {
3758
+ "epoch": 0.455077086656034,
3759
+ "grad_norm": 0.4349088966846466,
3760
+ "learning_rate": 0.00011556360655416457,
3761
+ "loss": 2.524,
3762
+ "step": 535
3763
+ },
3764
+ {
3765
+ "epoch": 0.4559276980329612,
3766
+ "grad_norm": 0.44450250267982483,
3767
+ "learning_rate": 0.00011529740024212565,
3768
+ "loss": 2.8296,
3769
+ "step": 536
3770
+ },
3771
+ {
3772
+ "epoch": 0.45677830940988834,
3773
+ "grad_norm": 0.44510000944137573,
3774
+ "learning_rate": 0.00011503108287971626,
3775
+ "loss": 2.8425,
3776
+ "step": 537
3777
+ },
3778
+ {
3779
+ "epoch": 0.4576289207868155,
3780
+ "grad_norm": 0.4766497313976288,
3781
+ "learning_rate": 0.00011476465640024814,
3782
+ "loss": 2.7471,
3783
+ "step": 538
3784
+ },
3785
+ {
3786
+ "epoch": 0.4584795321637427,
3787
+ "grad_norm": 0.458278089761734,
3788
+ "learning_rate": 0.00011449812273782492,
3789
+ "loss": 2.7274,
3790
+ "step": 539
3791
+ },
3792
+ {
3793
+ "epoch": 0.45933014354066987,
3794
+ "grad_norm": 0.46523377299308777,
3795
+ "learning_rate": 0.00011423148382732853,
3796
+ "loss": 2.4967,
3797
+ "step": 540
3798
+ },
3799
+ {
3800
+ "epoch": 0.460180754917597,
3801
+ "grad_norm": 0.4741576611995697,
3802
+ "learning_rate": 0.00011396474160440478,
3803
+ "loss": 2.6591,
3804
+ "step": 541
3805
+ },
3806
+ {
3807
+ "epoch": 0.4610313662945242,
3808
+ "grad_norm": 0.5007473230361938,
3809
+ "learning_rate": 0.00011369789800544959,
3810
+ "loss": 2.8139,
3811
+ "step": 542
3812
+ },
3813
+ {
3814
+ "epoch": 0.46188197767145134,
3815
+ "grad_norm": 0.45440518856048584,
3816
+ "learning_rate": 0.00011343095496759476,
3817
+ "loss": 2.6233,
3818
+ "step": 543
3819
+ },
3820
+ {
3821
+ "epoch": 0.4627325890483785,
3822
+ "grad_norm": 0.5588196516036987,
3823
+ "learning_rate": 0.00011316391442869394,
3824
+ "loss": 2.6369,
3825
+ "step": 544
3826
+ },
3827
+ {
3828
+ "epoch": 0.4635832004253057,
3829
+ "grad_norm": 0.5833231806755066,
3830
+ "learning_rate": 0.00011289677832730862,
3831
+ "loss": 2.8079,
3832
+ "step": 545
3833
+ },
3834
+ {
3835
+ "epoch": 0.46443381180223287,
3836
+ "grad_norm": 0.6029292345046997,
3837
+ "learning_rate": 0.00011262954860269399,
3838
+ "loss": 2.8007,
3839
+ "step": 546
3840
+ },
3841
+ {
3842
+ "epoch": 0.46528442317916,
3843
+ "grad_norm": 0.5825842022895813,
3844
+ "learning_rate": 0.00011236222719478491,
3845
+ "loss": 2.7767,
3846
+ "step": 547
3847
+ },
3848
+ {
3849
+ "epoch": 0.4661350345560872,
3850
+ "grad_norm": 0.6685728430747986,
3851
+ "learning_rate": 0.00011209481604418181,
3852
+ "loss": 2.6621,
3853
+ "step": 548
3854
+ },
3855
+ {
3856
+ "epoch": 0.46698564593301434,
3857
+ "grad_norm": 0.6266542077064514,
3858
+ "learning_rate": 0.00011182731709213659,
3859
+ "loss": 2.5234,
3860
+ "step": 549
3861
+ },
3862
+ {
3863
+ "epoch": 0.4678362573099415,
3864
+ "grad_norm": 0.7756956815719604,
3865
+ "learning_rate": 0.00011155973228053853,
3866
+ "loss": 2.9975,
3867
+ "step": 550
3868
+ },
3869
+ {
3870
+ "epoch": 0.4686868686868687,
3871
+ "grad_norm": 0.27434810996055603,
3872
+ "learning_rate": 0.00011129206355190025,
3873
+ "loss": 2.3867,
3874
+ "step": 551
3875
+ },
3876
+ {
3877
+ "epoch": 0.46953748006379586,
3878
+ "grad_norm": 0.28944891691207886,
3879
+ "learning_rate": 0.00011102431284934345,
3880
+ "loss": 2.6283,
3881
+ "step": 552
3882
+ },
3883
+ {
3884
+ "epoch": 0.470388091440723,
3885
+ "grad_norm": 0.2992161810398102,
3886
+ "learning_rate": 0.00011075648211658505,
3887
+ "loss": 2.5818,
3888
+ "step": 553
3889
+ },
3890
+ {
3891
+ "epoch": 0.4712387028176502,
3892
+ "grad_norm": 0.2830989956855774,
3893
+ "learning_rate": 0.00011048857329792284,
3894
+ "loss": 2.5738,
3895
+ "step": 554
3896
+ },
3897
+ {
3898
+ "epoch": 0.47208931419457734,
3899
+ "grad_norm": 0.2766299545764923,
3900
+ "learning_rate": 0.00011022058833822158,
3901
+ "loss": 2.5138,
3902
+ "step": 555
3903
+ },
3904
+ {
3905
+ "epoch": 0.4729399255715045,
3906
+ "grad_norm": 0.27325817942619324,
3907
+ "learning_rate": 0.0001099525291828986,
3908
+ "loss": 2.5166,
3909
+ "step": 556
3910
+ },
3911
+ {
3912
+ "epoch": 0.4737905369484317,
3913
+ "grad_norm": 0.27071428298950195,
3914
+ "learning_rate": 0.00010968439777790999,
3915
+ "loss": 2.4935,
3916
+ "step": 557
3917
+ },
3918
+ {
3919
+ "epoch": 0.47464114832535886,
3920
+ "grad_norm": 0.28781965374946594,
3921
+ "learning_rate": 0.00010941619606973632,
3922
+ "loss": 2.5851,
3923
+ "step": 558
3924
+ },
3925
+ {
3926
+ "epoch": 0.475491759702286,
3927
+ "grad_norm": 0.2613832354545593,
3928
+ "learning_rate": 0.00010914792600536843,
3929
+ "loss": 2.5289,
3930
+ "step": 559
3931
+ },
3932
+ {
3933
+ "epoch": 0.4763423710792132,
3934
+ "grad_norm": 0.2806464433670044,
3935
+ "learning_rate": 0.00010887958953229349,
3936
+ "loss": 2.659,
3937
+ "step": 560
3938
+ },
3939
+ {
3940
+ "epoch": 0.47719298245614034,
3941
+ "grad_norm": 0.2767505347728729,
3942
+ "learning_rate": 0.00010861118859848067,
3943
+ "loss": 2.6562,
3944
+ "step": 561
3945
+ },
3946
+ {
3947
+ "epoch": 0.4780435938330675,
3948
+ "grad_norm": 0.26740705966949463,
3949
+ "learning_rate": 0.0001083427251523672,
3950
+ "loss": 2.5689,
3951
+ "step": 562
3952
+ },
3953
+ {
3954
+ "epoch": 0.4788942052099947,
3955
+ "grad_norm": 0.2635597884654999,
3956
+ "learning_rate": 0.000108074201142844,
3957
+ "loss": 2.3973,
3958
+ "step": 563
3959
+ },
3960
+ {
3961
+ "epoch": 0.47974481658692186,
3962
+ "grad_norm": 0.2559509575366974,
3963
+ "learning_rate": 0.00010780561851924167,
3964
+ "loss": 2.4662,
3965
+ "step": 564
3966
+ },
3967
+ {
3968
+ "epoch": 0.480595427963849,
3969
+ "grad_norm": 0.2819572687149048,
3970
+ "learning_rate": 0.0001075369792313164,
3971
+ "loss": 2.7678,
3972
+ "step": 565
3973
+ },
3974
+ {
3975
+ "epoch": 0.4814460393407762,
3976
+ "grad_norm": 0.2618950605392456,
3977
+ "learning_rate": 0.00010726828522923562,
3978
+ "loss": 2.6463,
3979
+ "step": 566
3980
+ },
3981
+ {
3982
+ "epoch": 0.48229665071770333,
3983
+ "grad_norm": 0.2766074240207672,
3984
+ "learning_rate": 0.000106999538463564,
3985
+ "loss": 2.7133,
3986
+ "step": 567
3987
+ },
3988
+ {
3989
+ "epoch": 0.4831472620946305,
3990
+ "grad_norm": 0.280367910861969,
3991
+ "learning_rate": 0.00010673074088524926,
3992
+ "loss": 2.61,
3993
+ "step": 568
3994
+ },
3995
+ {
3996
+ "epoch": 0.4839978734715577,
3997
+ "grad_norm": 0.3028632402420044,
3998
+ "learning_rate": 0.00010646189444560799,
3999
+ "loss": 2.5465,
4000
+ "step": 569
4001
+ },
4002
+ {
4003
+ "epoch": 0.48484848484848486,
4004
+ "grad_norm": 0.2950790822505951,
4005
+ "learning_rate": 0.00010619300109631145,
4006
+ "loss": 2.6517,
4007
+ "step": 570
4008
+ },
4009
+ {
4010
+ "epoch": 0.485699096225412,
4011
+ "grad_norm": 0.2803073227405548,
4012
+ "learning_rate": 0.00010592406278937144,
4013
+ "loss": 2.6062,
4014
+ "step": 571
4015
+ },
4016
+ {
4017
+ "epoch": 0.4865497076023392,
4018
+ "grad_norm": 0.29916471242904663,
4019
+ "learning_rate": 0.00010565508147712617,
4020
+ "loss": 2.5532,
4021
+ "step": 572
4022
+ },
4023
+ {
4024
+ "epoch": 0.48740031897926633,
4025
+ "grad_norm": 0.32185062766075134,
4026
+ "learning_rate": 0.00010538605911222603,
4027
+ "loss": 2.722,
4028
+ "step": 573
4029
+ },
4030
+ {
4031
+ "epoch": 0.4882509303561935,
4032
+ "grad_norm": 0.3155268728733063,
4033
+ "learning_rate": 0.00010511699764761936,
4034
+ "loss": 2.6655,
4035
+ "step": 574
4036
+ },
4037
+ {
4038
+ "epoch": 0.4891015417331207,
4039
+ "grad_norm": 0.3241024315357208,
4040
+ "learning_rate": 0.00010484789903653846,
4041
+ "loss": 2.7093,
4042
+ "step": 575
4043
+ },
4044
+ {
4045
+ "epoch": 0.48995215311004786,
4046
+ "grad_norm": 0.3311263620853424,
4047
+ "learning_rate": 0.00010457876523248518,
4048
+ "loss": 2.6485,
4049
+ "step": 576
4050
+ },
4051
+ {
4052
+ "epoch": 0.490802764486975,
4053
+ "grad_norm": 0.34630128741264343,
4054
+ "learning_rate": 0.00010430959818921694,
4055
+ "loss": 2.8315,
4056
+ "step": 577
4057
+ },
4058
+ {
4059
+ "epoch": 0.4916533758639022,
4060
+ "grad_norm": 0.34841713309288025,
4061
+ "learning_rate": 0.00010404039986073244,
4062
+ "loss": 2.7484,
4063
+ "step": 578
4064
+ },
4065
+ {
4066
+ "epoch": 0.49250398724082933,
4067
+ "grad_norm": 0.35180601477622986,
4068
+ "learning_rate": 0.00010377117220125741,
4069
+ "loss": 2.6745,
4070
+ "step": 579
4071
+ },
4072
+ {
4073
+ "epoch": 0.4933545986177565,
4074
+ "grad_norm": 0.38369500637054443,
4075
+ "learning_rate": 0.00010350191716523059,
4076
+ "loss": 2.6623,
4077
+ "step": 580
4078
+ },
4079
+ {
4080
+ "epoch": 0.4942052099946837,
4081
+ "grad_norm": 0.3735206425189972,
4082
+ "learning_rate": 0.00010323263670728946,
4083
+ "loss": 2.5805,
4084
+ "step": 581
4085
+ },
4086
+ {
4087
+ "epoch": 0.49505582137161086,
4088
+ "grad_norm": 0.3994956314563751,
4089
+ "learning_rate": 0.00010296333278225599,
4090
+ "loss": 2.5622,
4091
+ "step": 582
4092
+ },
4093
+ {
4094
+ "epoch": 0.495906432748538,
4095
+ "grad_norm": 0.39151209592819214,
4096
+ "learning_rate": 0.00010269400734512256,
4097
+ "loss": 2.805,
4098
+ "step": 583
4099
+ },
4100
+ {
4101
+ "epoch": 0.4967570441254652,
4102
+ "grad_norm": 0.40469613671302795,
4103
+ "learning_rate": 0.0001024246623510377,
4104
+ "loss": 2.7588,
4105
+ "step": 584
4106
+ },
4107
+ {
4108
+ "epoch": 0.49760765550239233,
4109
+ "grad_norm": 0.4307393431663513,
4110
+ "learning_rate": 0.0001021552997552919,
4111
+ "loss": 2.8039,
4112
+ "step": 585
4113
+ },
4114
+ {
4115
+ "epoch": 0.4984582668793195,
4116
+ "grad_norm": 0.41100749373435974,
4117
+ "learning_rate": 0.00010188592151330343,
4118
+ "loss": 2.6842,
4119
+ "step": 586
4120
+ },
4121
+ {
4122
+ "epoch": 0.4993088782562467,
4123
+ "grad_norm": 0.45486176013946533,
4124
+ "learning_rate": 0.00010161652958060417,
4125
+ "loss": 2.8073,
4126
+ "step": 587
4127
+ },
4128
+ {
4129
+ "epoch": 0.5001594896331738,
4130
+ "grad_norm": 0.43648669123649597,
4131
+ "learning_rate": 0.00010134712591282538,
4132
+ "loss": 2.638,
4133
+ "step": 588
4134
+ },
4135
+ {
4136
+ "epoch": 0.5001594896331738,
4137
+ "eval_loss": 2.66949725151062,
4138
+ "eval_runtime": 80.5199,
4139
+ "eval_samples_per_second": 12.295,
4140
+ "eval_steps_per_second": 6.148,
4141
+ "step": 588
4142
  }
4143
  ],
4144
  "logging_steps": 1,
 
4158
  "attributes": {}
4159
  }
4160
  },
4161
+ "total_flos": 5.999986420985364e+17,
4162
  "train_batch_size": 2,
4163
  "trial_name": null,
4164
  "trial_params": null