DeepDream2045 commited on
Commit
2425a55
·
verified ·
1 Parent(s): f29bb5c

Training in progress, step 626, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8950e8e6b65a7778eee9deefe719e424c653ff6b85d4ab6b1abd8ae2c7a76db0
3
  size 80013120
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:01d7218f949bedf308d12f9c2950468200781c4efa5986fb875fe56960d2154d
3
  size 80013120
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a3bb533cc5172ec74cea57d9cfc0dd90dbb0e2ece16b81efd576e0019f7814a7
3
  size 41120084
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:137e7ec4d974d11661475f258a688c51395eab9825636ab5c100cb79c582469d
3
  size 41120084
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:da386128740862a204df566b200e7c30ba50a0a9144a2d20f6df953b12fb3eb9
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:16488c6650b1c765ea62eeec5f572c77ea27de32fc87bfb1732715dd1732f390
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c161f5ed2e319062bad233b74e107354728f77b6c09ccc2bf6980c6aed84ef5f
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:eda4edf49d712f7f7fe92801c041a6b5b3549336fb75bb6697c4ba84aa04be0e
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.2501998401278977,
5
  "eval_steps": 313,
6
- "global_step": 313,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2206,6 +2206,2205 @@
2206
  "eval_samples_per_second": 13.243,
2207
  "eval_steps_per_second": 6.634,
2208
  "step": 313
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2209
  }
2210
  ],
2211
  "logging_steps": 1,
@@ -2225,7 +4424,7 @@
2225
  "attributes": {}
2226
  }
2227
  },
2228
- "total_flos": 1.3892953531062682e+17,
2229
  "train_batch_size": 2,
2230
  "trial_name": null,
2231
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.5003996802557954,
5
  "eval_steps": 313,
6
+ "global_step": 626,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2206
  "eval_samples_per_second": 13.243,
2207
  "eval_steps_per_second": 6.634,
2208
  "step": 313
2209
+ },
2210
+ {
2211
+ "epoch": 0.2509992006394884,
2212
+ "grad_norm": 0.3559674322605133,
2213
+ "learning_rate": 0.0001718205569778497,
2214
+ "loss": 1.1891,
2215
+ "step": 314
2216
+ },
2217
+ {
2218
+ "epoch": 0.2517985611510791,
2219
+ "grad_norm": 0.40814101696014404,
2220
+ "learning_rate": 0.0001716441773566966,
2221
+ "loss": 1.1652,
2222
+ "step": 315
2223
+ },
2224
+ {
2225
+ "epoch": 0.25259792166266987,
2226
+ "grad_norm": 0.3883415162563324,
2227
+ "learning_rate": 0.00017146733860429612,
2228
+ "loss": 1.1556,
2229
+ "step": 316
2230
+ },
2231
+ {
2232
+ "epoch": 0.2533972821742606,
2233
+ "grad_norm": 0.37391719222068787,
2234
+ "learning_rate": 0.0001712900418539183,
2235
+ "loss": 1.1343,
2236
+ "step": 317
2237
+ },
2238
+ {
2239
+ "epoch": 0.2541966426858513,
2240
+ "grad_norm": 0.36951127648353577,
2241
+ "learning_rate": 0.00017111228824176825,
2242
+ "loss": 1.1139,
2243
+ "step": 318
2244
+ },
2245
+ {
2246
+ "epoch": 0.25499600319744203,
2247
+ "grad_norm": 0.3808392584323883,
2248
+ "learning_rate": 0.0001709340789069788,
2249
+ "loss": 1.1057,
2250
+ "step": 319
2251
+ },
2252
+ {
2253
+ "epoch": 0.2557953637090328,
2254
+ "grad_norm": 0.4488889276981354,
2255
+ "learning_rate": 0.00017075541499160334,
2256
+ "loss": 1.1723,
2257
+ "step": 320
2258
+ },
2259
+ {
2260
+ "epoch": 0.2565947242206235,
2261
+ "grad_norm": 0.4316102862358093,
2262
+ "learning_rate": 0.0001705762976406084,
2263
+ "loss": 1.164,
2264
+ "step": 321
2265
+ },
2266
+ {
2267
+ "epoch": 0.2573940847322142,
2268
+ "grad_norm": 0.4768711030483246,
2269
+ "learning_rate": 0.00017039672800186638,
2270
+ "loss": 1.0935,
2271
+ "step": 322
2272
+ },
2273
+ {
2274
+ "epoch": 0.25819344524380494,
2275
+ "grad_norm": 0.4212109446525574,
2276
+ "learning_rate": 0.00017021670722614817,
2277
+ "loss": 1.0126,
2278
+ "step": 323
2279
+ },
2280
+ {
2281
+ "epoch": 0.2589928057553957,
2282
+ "grad_norm": 0.4388445019721985,
2283
+ "learning_rate": 0.0001700362364671157,
2284
+ "loss": 1.2362,
2285
+ "step": 324
2286
+ },
2287
+ {
2288
+ "epoch": 0.2597921662669864,
2289
+ "grad_norm": 0.4593929350376129,
2290
+ "learning_rate": 0.0001698553168813147,
2291
+ "loss": 1.323,
2292
+ "step": 325
2293
+ },
2294
+ {
2295
+ "epoch": 0.26059152677857716,
2296
+ "grad_norm": 0.507211446762085,
2297
+ "learning_rate": 0.00016967394962816713,
2298
+ "loss": 1.2032,
2299
+ "step": 326
2300
+ },
2301
+ {
2302
+ "epoch": 0.26139088729016785,
2303
+ "grad_norm": 0.4374110698699951,
2304
+ "learning_rate": 0.0001694921358699639,
2305
+ "loss": 0.8798,
2306
+ "step": 327
2307
+ },
2308
+ {
2309
+ "epoch": 0.2621902478017586,
2310
+ "grad_norm": 0.558111310005188,
2311
+ "learning_rate": 0.00016930987677185727,
2312
+ "loss": 1.2127,
2313
+ "step": 328
2314
+ },
2315
+ {
2316
+ "epoch": 0.26298960831334933,
2317
+ "grad_norm": 0.4802536070346832,
2318
+ "learning_rate": 0.00016912717350185355,
2319
+ "loss": 1.1708,
2320
+ "step": 329
2321
+ },
2322
+ {
2323
+ "epoch": 0.2637889688249401,
2324
+ "grad_norm": 0.572343111038208,
2325
+ "learning_rate": 0.00016894402723080537,
2326
+ "loss": 1.2319,
2327
+ "step": 330
2328
+ },
2329
+ {
2330
+ "epoch": 0.26458832933653076,
2331
+ "grad_norm": 0.5261095762252808,
2332
+ "learning_rate": 0.00016876043913240452,
2333
+ "loss": 1.1315,
2334
+ "step": 331
2335
+ },
2336
+ {
2337
+ "epoch": 0.2653876898481215,
2338
+ "grad_norm": 0.5496971607208252,
2339
+ "learning_rate": 0.00016857641038317404,
2340
+ "loss": 1.1368,
2341
+ "step": 332
2342
+ },
2343
+ {
2344
+ "epoch": 0.26618705035971224,
2345
+ "grad_norm": 0.5394718647003174,
2346
+ "learning_rate": 0.00016839194216246108,
2347
+ "loss": 1.0986,
2348
+ "step": 333
2349
+ },
2350
+ {
2351
+ "epoch": 0.266986410871303,
2352
+ "grad_norm": 0.514948844909668,
2353
+ "learning_rate": 0.00016820703565242898,
2354
+ "loss": 1.0841,
2355
+ "step": 334
2356
+ },
2357
+ {
2358
+ "epoch": 0.26778577138289367,
2359
+ "grad_norm": 0.6216516494750977,
2360
+ "learning_rate": 0.0001680216920380499,
2361
+ "loss": 0.8411,
2362
+ "step": 335
2363
+ },
2364
+ {
2365
+ "epoch": 0.2685851318944844,
2366
+ "grad_norm": 0.6901413798332214,
2367
+ "learning_rate": 0.00016783591250709728,
2368
+ "loss": 1.0341,
2369
+ "step": 336
2370
+ },
2371
+ {
2372
+ "epoch": 0.26938449240607515,
2373
+ "grad_norm": 0.6468019485473633,
2374
+ "learning_rate": 0.00016764969825013793,
2375
+ "loss": 0.8504,
2376
+ "step": 337
2377
+ },
2378
+ {
2379
+ "epoch": 0.2701838529176659,
2380
+ "grad_norm": 0.8816102743148804,
2381
+ "learning_rate": 0.0001674630504605248,
2382
+ "loss": 1.1692,
2383
+ "step": 338
2384
+ },
2385
+ {
2386
+ "epoch": 0.2709832134292566,
2387
+ "grad_norm": 0.677508533000946,
2388
+ "learning_rate": 0.00016727597033438902,
2389
+ "loss": 1.0148,
2390
+ "step": 339
2391
+ },
2392
+ {
2393
+ "epoch": 0.2717825739408473,
2394
+ "grad_norm": 0.8252014517784119,
2395
+ "learning_rate": 0.00016708845907063236,
2396
+ "loss": 1.1856,
2397
+ "step": 340
2398
+ },
2399
+ {
2400
+ "epoch": 0.27258193445243806,
2401
+ "grad_norm": 0.8761686682701111,
2402
+ "learning_rate": 0.0001669005178709195,
2403
+ "loss": 1.168,
2404
+ "step": 341
2405
+ },
2406
+ {
2407
+ "epoch": 0.2733812949640288,
2408
+ "grad_norm": 0.9532282948493958,
2409
+ "learning_rate": 0.00016671214793967048,
2410
+ "loss": 1.1328,
2411
+ "step": 342
2412
+ },
2413
+ {
2414
+ "epoch": 0.2741806554756195,
2415
+ "grad_norm": 1.1391276121139526,
2416
+ "learning_rate": 0.00016652335048405274,
2417
+ "loss": 1.1273,
2418
+ "step": 343
2419
+ },
2420
+ {
2421
+ "epoch": 0.2749800159872102,
2422
+ "grad_norm": 0.8748697638511658,
2423
+ "learning_rate": 0.00016633412671397357,
2424
+ "loss": 0.9519,
2425
+ "step": 344
2426
+ },
2427
+ {
2428
+ "epoch": 0.27577937649880097,
2429
+ "grad_norm": 0.9585081934928894,
2430
+ "learning_rate": 0.00016614447784207227,
2431
+ "loss": 1.2655,
2432
+ "step": 345
2433
+ },
2434
+ {
2435
+ "epoch": 0.2765787370103917,
2436
+ "grad_norm": 1.1829018592834473,
2437
+ "learning_rate": 0.00016595440508371237,
2438
+ "loss": 1.4466,
2439
+ "step": 346
2440
+ },
2441
+ {
2442
+ "epoch": 0.2773780975219824,
2443
+ "grad_norm": 1.3926594257354736,
2444
+ "learning_rate": 0.00016576390965697405,
2445
+ "loss": 0.9497,
2446
+ "step": 347
2447
+ },
2448
+ {
2449
+ "epoch": 0.27817745803357313,
2450
+ "grad_norm": 1.3197882175445557,
2451
+ "learning_rate": 0.00016557299278264584,
2452
+ "loss": 1.625,
2453
+ "step": 348
2454
+ },
2455
+ {
2456
+ "epoch": 0.2789768185451639,
2457
+ "grad_norm": 1.5563266277313232,
2458
+ "learning_rate": 0.0001653816556842174,
2459
+ "loss": 1.3074,
2460
+ "step": 349
2461
+ },
2462
+ {
2463
+ "epoch": 0.2797761790567546,
2464
+ "grad_norm": 2.229512929916382,
2465
+ "learning_rate": 0.00016518989958787126,
2466
+ "loss": 0.8772,
2467
+ "step": 350
2468
+ },
2469
+ {
2470
+ "epoch": 0.2805755395683453,
2471
+ "grad_norm": 0.32201531529426575,
2472
+ "learning_rate": 0.00016499772572247515,
2473
+ "loss": 0.8794,
2474
+ "step": 351
2475
+ },
2476
+ {
2477
+ "epoch": 0.28137490007993604,
2478
+ "grad_norm": 0.3720848560333252,
2479
+ "learning_rate": 0.000164805135319574,
2480
+ "loss": 1.0193,
2481
+ "step": 352
2482
+ },
2483
+ {
2484
+ "epoch": 0.2821742605915268,
2485
+ "grad_norm": 0.44173169136047363,
2486
+ "learning_rate": 0.0001646121296133822,
2487
+ "loss": 1.1591,
2488
+ "step": 353
2489
+ },
2490
+ {
2491
+ "epoch": 0.2829736211031175,
2492
+ "grad_norm": 0.3597632646560669,
2493
+ "learning_rate": 0.00016441870984077554,
2494
+ "loss": 1.0938,
2495
+ "step": 354
2496
+ },
2497
+ {
2498
+ "epoch": 0.2837729816147082,
2499
+ "grad_norm": 0.4087126851081848,
2500
+ "learning_rate": 0.00016422487724128342,
2501
+ "loss": 1.0694,
2502
+ "step": 355
2503
+ },
2504
+ {
2505
+ "epoch": 0.28457234212629895,
2506
+ "grad_norm": 0.528968095779419,
2507
+ "learning_rate": 0.00016403063305708078,
2508
+ "loss": 1.024,
2509
+ "step": 356
2510
+ },
2511
+ {
2512
+ "epoch": 0.2853717026378897,
2513
+ "grad_norm": 0.46297335624694824,
2514
+ "learning_rate": 0.0001638359785329802,
2515
+ "loss": 1.1045,
2516
+ "step": 357
2517
+ },
2518
+ {
2519
+ "epoch": 0.28617106314948043,
2520
+ "grad_norm": 0.3513520359992981,
2521
+ "learning_rate": 0.00016364091491642398,
2522
+ "loss": 1.204,
2523
+ "step": 358
2524
+ },
2525
+ {
2526
+ "epoch": 0.2869704236610711,
2527
+ "grad_norm": 0.3250669240951538,
2528
+ "learning_rate": 0.000163445443457476,
2529
+ "loss": 1.0709,
2530
+ "step": 359
2531
+ },
2532
+ {
2533
+ "epoch": 0.28776978417266186,
2534
+ "grad_norm": 0.3269745707511902,
2535
+ "learning_rate": 0.00016324956540881384,
2536
+ "loss": 1.0644,
2537
+ "step": 360
2538
+ },
2539
+ {
2540
+ "epoch": 0.2885691446842526,
2541
+ "grad_norm": 0.30179765820503235,
2542
+ "learning_rate": 0.00016305328202572076,
2543
+ "loss": 1.0858,
2544
+ "step": 361
2545
+ },
2546
+ {
2547
+ "epoch": 0.28936850519584334,
2548
+ "grad_norm": 0.35633420944213867,
2549
+ "learning_rate": 0.0001628565945660775,
2550
+ "loss": 1.0879,
2551
+ "step": 362
2552
+ },
2553
+ {
2554
+ "epoch": 0.290167865707434,
2555
+ "grad_norm": 0.3494223356246948,
2556
+ "learning_rate": 0.00016265950429035443,
2557
+ "loss": 1.0941,
2558
+ "step": 363
2559
+ },
2560
+ {
2561
+ "epoch": 0.29096722621902477,
2562
+ "grad_norm": 0.3416435420513153,
2563
+ "learning_rate": 0.00016246201246160327,
2564
+ "loss": 1.185,
2565
+ "step": 364
2566
+ },
2567
+ {
2568
+ "epoch": 0.2917665867306155,
2569
+ "grad_norm": 0.4749598503112793,
2570
+ "learning_rate": 0.00016226412034544912,
2571
+ "loss": 1.1142,
2572
+ "step": 365
2573
+ },
2574
+ {
2575
+ "epoch": 0.29256594724220625,
2576
+ "grad_norm": 0.3291066884994507,
2577
+ "learning_rate": 0.00016206582921008233,
2578
+ "loss": 1.0666,
2579
+ "step": 366
2580
+ },
2581
+ {
2582
+ "epoch": 0.293365307753797,
2583
+ "grad_norm": 0.3534018099308014,
2584
+ "learning_rate": 0.00016186714032625035,
2585
+ "loss": 1.041,
2586
+ "step": 367
2587
+ },
2588
+ {
2589
+ "epoch": 0.2941646682653877,
2590
+ "grad_norm": 0.44766634702682495,
2591
+ "learning_rate": 0.00016166805496724965,
2592
+ "loss": 1.124,
2593
+ "step": 368
2594
+ },
2595
+ {
2596
+ "epoch": 0.2949640287769784,
2597
+ "grad_norm": 0.43692246079444885,
2598
+ "learning_rate": 0.00016146857440891744,
2599
+ "loss": 1.1488,
2600
+ "step": 369
2601
+ },
2602
+ {
2603
+ "epoch": 0.29576338928856916,
2604
+ "grad_norm": 0.546944260597229,
2605
+ "learning_rate": 0.00016126869992962357,
2606
+ "loss": 1.0826,
2607
+ "step": 370
2608
+ },
2609
+ {
2610
+ "epoch": 0.2965627498001599,
2611
+ "grad_norm": 0.3757582902908325,
2612
+ "learning_rate": 0.00016106843281026237,
2613
+ "loss": 1.2105,
2614
+ "step": 371
2615
+ },
2616
+ {
2617
+ "epoch": 0.2973621103117506,
2618
+ "grad_norm": 0.4158326983451843,
2619
+ "learning_rate": 0.00016086777433424435,
2620
+ "loss": 1.0807,
2621
+ "step": 372
2622
+ },
2623
+ {
2624
+ "epoch": 0.2981614708233413,
2625
+ "grad_norm": 0.41738831996917725,
2626
+ "learning_rate": 0.00016066672578748814,
2627
+ "loss": 1.0334,
2628
+ "step": 373
2629
+ },
2630
+ {
2631
+ "epoch": 0.29896083133493206,
2632
+ "grad_norm": 0.4042329490184784,
2633
+ "learning_rate": 0.00016046528845841196,
2634
+ "loss": 1.0007,
2635
+ "step": 374
2636
+ },
2637
+ {
2638
+ "epoch": 0.2997601918465228,
2639
+ "grad_norm": 0.43798747658729553,
2640
+ "learning_rate": 0.00016026346363792567,
2641
+ "loss": 0.8887,
2642
+ "step": 375
2643
+ },
2644
+ {
2645
+ "epoch": 0.3005595523581135,
2646
+ "grad_norm": 0.45503515005111694,
2647
+ "learning_rate": 0.00016006125261942229,
2648
+ "loss": 1.002,
2649
+ "step": 376
2650
+ },
2651
+ {
2652
+ "epoch": 0.30135891286970423,
2653
+ "grad_norm": 0.44098415970802307,
2654
+ "learning_rate": 0.00015985865669876988,
2655
+ "loss": 0.9226,
2656
+ "step": 377
2657
+ },
2658
+ {
2659
+ "epoch": 0.302158273381295,
2660
+ "grad_norm": 0.5401691198348999,
2661
+ "learning_rate": 0.00015965567717430304,
2662
+ "loss": 1.0046,
2663
+ "step": 378
2664
+ },
2665
+ {
2666
+ "epoch": 0.3029576338928857,
2667
+ "grad_norm": 0.4791525602340698,
2668
+ "learning_rate": 0.00015945231534681483,
2669
+ "loss": 1.0362,
2670
+ "step": 379
2671
+ },
2672
+ {
2673
+ "epoch": 0.3037569944044764,
2674
+ "grad_norm": 0.5511587858200073,
2675
+ "learning_rate": 0.00015924857251954806,
2676
+ "loss": 1.0618,
2677
+ "step": 380
2678
+ },
2679
+ {
2680
+ "epoch": 0.30455635491606714,
2681
+ "grad_norm": 0.5481637716293335,
2682
+ "learning_rate": 0.00015904444999818745,
2683
+ "loss": 1.0005,
2684
+ "step": 381
2685
+ },
2686
+ {
2687
+ "epoch": 0.3053557154276579,
2688
+ "grad_norm": 0.6237247586250305,
2689
+ "learning_rate": 0.0001588399490908508,
2690
+ "loss": 0.885,
2691
+ "step": 382
2692
+ },
2693
+ {
2694
+ "epoch": 0.3061550759392486,
2695
+ "grad_norm": 0.7181023955345154,
2696
+ "learning_rate": 0.00015863507110808086,
2697
+ "loss": 1.4557,
2698
+ "step": 383
2699
+ },
2700
+ {
2701
+ "epoch": 0.3069544364508393,
2702
+ "grad_norm": 0.5080341100692749,
2703
+ "learning_rate": 0.00015842981736283686,
2704
+ "loss": 0.8882,
2705
+ "step": 384
2706
+ },
2707
+ {
2708
+ "epoch": 0.30775379696243005,
2709
+ "grad_norm": 0.6519491672515869,
2710
+ "learning_rate": 0.0001582241891704861,
2711
+ "loss": 1.1977,
2712
+ "step": 385
2713
+ },
2714
+ {
2715
+ "epoch": 0.3085531574740208,
2716
+ "grad_norm": 0.6563478708267212,
2717
+ "learning_rate": 0.0001580181878487955,
2718
+ "loss": 1.0473,
2719
+ "step": 386
2720
+ },
2721
+ {
2722
+ "epoch": 0.30935251798561153,
2723
+ "grad_norm": 0.6795956492424011,
2724
+ "learning_rate": 0.00015781181471792322,
2725
+ "loss": 1.1955,
2726
+ "step": 387
2727
+ },
2728
+ {
2729
+ "epoch": 0.3101518784972022,
2730
+ "grad_norm": 0.6601610779762268,
2731
+ "learning_rate": 0.00015760507110041015,
2732
+ "loss": 1.0557,
2733
+ "step": 388
2734
+ },
2735
+ {
2736
+ "epoch": 0.31095123900879296,
2737
+ "grad_norm": 0.9046745896339417,
2738
+ "learning_rate": 0.00015739795832117143,
2739
+ "loss": 1.1948,
2740
+ "step": 389
2741
+ },
2742
+ {
2743
+ "epoch": 0.3117505995203837,
2744
+ "grad_norm": 0.8437576293945312,
2745
+ "learning_rate": 0.00015719047770748788,
2746
+ "loss": 0.8749,
2747
+ "step": 390
2748
+ },
2749
+ {
2750
+ "epoch": 0.31254996003197444,
2751
+ "grad_norm": 1.1434983015060425,
2752
+ "learning_rate": 0.00015698263058899778,
2753
+ "loss": 1.158,
2754
+ "step": 391
2755
+ },
2756
+ {
2757
+ "epoch": 0.3133493205435651,
2758
+ "grad_norm": 0.8605363965034485,
2759
+ "learning_rate": 0.000156774418297688,
2760
+ "loss": 1.2285,
2761
+ "step": 392
2762
+ },
2763
+ {
2764
+ "epoch": 0.31414868105515587,
2765
+ "grad_norm": 0.8296773433685303,
2766
+ "learning_rate": 0.00015656584216788567,
2767
+ "loss": 1.2332,
2768
+ "step": 393
2769
+ },
2770
+ {
2771
+ "epoch": 0.3149480415667466,
2772
+ "grad_norm": 1.2430847883224487,
2773
+ "learning_rate": 0.00015635690353624955,
2774
+ "loss": 1.1903,
2775
+ "step": 394
2776
+ },
2777
+ {
2778
+ "epoch": 0.31574740207833735,
2779
+ "grad_norm": 1.0443687438964844,
2780
+ "learning_rate": 0.0001561476037417615,
2781
+ "loss": 1.311,
2782
+ "step": 395
2783
+ },
2784
+ {
2785
+ "epoch": 0.31654676258992803,
2786
+ "grad_norm": 1.023246169090271,
2787
+ "learning_rate": 0.00015593794412571796,
2788
+ "loss": 1.3116,
2789
+ "step": 396
2790
+ },
2791
+ {
2792
+ "epoch": 0.3173461231015188,
2793
+ "grad_norm": 1.2342387437820435,
2794
+ "learning_rate": 0.00015572792603172115,
2795
+ "loss": 1.1111,
2796
+ "step": 397
2797
+ },
2798
+ {
2799
+ "epoch": 0.3181454836131095,
2800
+ "grad_norm": 1.0979640483856201,
2801
+ "learning_rate": 0.00015551755080567075,
2802
+ "loss": 1.2079,
2803
+ "step": 398
2804
+ },
2805
+ {
2806
+ "epoch": 0.31894484412470026,
2807
+ "grad_norm": 1.2995789051055908,
2808
+ "learning_rate": 0.00015530681979575496,
2809
+ "loss": 1.2902,
2810
+ "step": 399
2811
+ },
2812
+ {
2813
+ "epoch": 0.31974420463629094,
2814
+ "grad_norm": 1.4143871068954468,
2815
+ "learning_rate": 0.00015509573435244214,
2816
+ "loss": 1.1578,
2817
+ "step": 400
2818
+ },
2819
+ {
2820
+ "epoch": 0.3205435651478817,
2821
+ "grad_norm": 0.37532997131347656,
2822
+ "learning_rate": 0.00015488429582847192,
2823
+ "loss": 0.8548,
2824
+ "step": 401
2825
+ },
2826
+ {
2827
+ "epoch": 0.3213429256594724,
2828
+ "grad_norm": 0.4204126000404358,
2829
+ "learning_rate": 0.00015467250557884684,
2830
+ "loss": 1.0921,
2831
+ "step": 402
2832
+ },
2833
+ {
2834
+ "epoch": 0.32214228617106316,
2835
+ "grad_norm": 0.38710692524909973,
2836
+ "learning_rate": 0.0001544603649608232,
2837
+ "loss": 1.1638,
2838
+ "step": 403
2839
+ },
2840
+ {
2841
+ "epoch": 0.3229416466826539,
2842
+ "grad_norm": 0.40149056911468506,
2843
+ "learning_rate": 0.0001542478753339029,
2844
+ "loss": 1.0853,
2845
+ "step": 404
2846
+ },
2847
+ {
2848
+ "epoch": 0.3237410071942446,
2849
+ "grad_norm": 0.4281335175037384,
2850
+ "learning_rate": 0.0001540350380598243,
2851
+ "loss": 0.9679,
2852
+ "step": 405
2853
+ },
2854
+ {
2855
+ "epoch": 0.32454036770583533,
2856
+ "grad_norm": 0.3761771023273468,
2857
+ "learning_rate": 0.00015382185450255365,
2858
+ "loss": 1.1288,
2859
+ "step": 406
2860
+ },
2861
+ {
2862
+ "epoch": 0.32533972821742607,
2863
+ "grad_norm": 0.4560992121696472,
2864
+ "learning_rate": 0.00015360832602827644,
2865
+ "loss": 1.12,
2866
+ "step": 407
2867
+ },
2868
+ {
2869
+ "epoch": 0.3261390887290168,
2870
+ "grad_norm": 0.35900700092315674,
2871
+ "learning_rate": 0.00015339445400538852,
2872
+ "loss": 1.0102,
2873
+ "step": 408
2874
+ },
2875
+ {
2876
+ "epoch": 0.3269384492406075,
2877
+ "grad_norm": 0.3479507267475128,
2878
+ "learning_rate": 0.00015318023980448735,
2879
+ "loss": 1.2253,
2880
+ "step": 409
2881
+ },
2882
+ {
2883
+ "epoch": 0.32773780975219824,
2884
+ "grad_norm": 0.3966832458972931,
2885
+ "learning_rate": 0.00015296568479836325,
2886
+ "loss": 1.2279,
2887
+ "step": 410
2888
+ },
2889
+ {
2890
+ "epoch": 0.328537170263789,
2891
+ "grad_norm": 0.3351828157901764,
2892
+ "learning_rate": 0.00015275079036199062,
2893
+ "loss": 1.161,
2894
+ "step": 411
2895
+ },
2896
+ {
2897
+ "epoch": 0.3293365307753797,
2898
+ "grad_norm": 0.3129248023033142,
2899
+ "learning_rate": 0.000152535557872519,
2900
+ "loss": 1.0208,
2901
+ "step": 412
2902
+ },
2903
+ {
2904
+ "epoch": 0.3301358912869704,
2905
+ "grad_norm": 0.3181811273097992,
2906
+ "learning_rate": 0.00015231998870926446,
2907
+ "loss": 1.1992,
2908
+ "step": 413
2909
+ },
2910
+ {
2911
+ "epoch": 0.33093525179856115,
2912
+ "grad_norm": 0.32170534133911133,
2913
+ "learning_rate": 0.0001521040842537006,
2914
+ "loss": 1.1188,
2915
+ "step": 414
2916
+ },
2917
+ {
2918
+ "epoch": 0.3317346123101519,
2919
+ "grad_norm": 0.348155677318573,
2920
+ "learning_rate": 0.0001518878458894497,
2921
+ "loss": 1.1693,
2922
+ "step": 415
2923
+ },
2924
+ {
2925
+ "epoch": 0.33253397282174263,
2926
+ "grad_norm": 0.468597948551178,
2927
+ "learning_rate": 0.00015167127500227397,
2928
+ "loss": 1.041,
2929
+ "step": 416
2930
+ },
2931
+ {
2932
+ "epoch": 0.3333333333333333,
2933
+ "grad_norm": 0.35079798102378845,
2934
+ "learning_rate": 0.0001514543729800664,
2935
+ "loss": 0.8822,
2936
+ "step": 417
2937
+ },
2938
+ {
2939
+ "epoch": 0.33413269384492406,
2940
+ "grad_norm": 0.36019131541252136,
2941
+ "learning_rate": 0.0001512371412128424,
2942
+ "loss": 0.9667,
2943
+ "step": 418
2944
+ },
2945
+ {
2946
+ "epoch": 0.3349320543565148,
2947
+ "grad_norm": 0.37374162673950195,
2948
+ "learning_rate": 0.00015101958109273015,
2949
+ "loss": 1.0106,
2950
+ "step": 419
2951
+ },
2952
+ {
2953
+ "epoch": 0.33573141486810554,
2954
+ "grad_norm": 0.39020803570747375,
2955
+ "learning_rate": 0.0001508016940139624,
2956
+ "loss": 1.1184,
2957
+ "step": 420
2958
+ },
2959
+ {
2960
+ "epoch": 0.3365307753796962,
2961
+ "grad_norm": 0.4587428569793701,
2962
+ "learning_rate": 0.00015058348137286703,
2963
+ "loss": 1.3182,
2964
+ "step": 421
2965
+ },
2966
+ {
2967
+ "epoch": 0.33733013589128696,
2968
+ "grad_norm": 0.40048739314079285,
2969
+ "learning_rate": 0.00015036494456785836,
2970
+ "loss": 1.1058,
2971
+ "step": 422
2972
+ },
2973
+ {
2974
+ "epoch": 0.3381294964028777,
2975
+ "grad_norm": 0.4465924799442291,
2976
+ "learning_rate": 0.00015014608499942808,
2977
+ "loss": 1.0426,
2978
+ "step": 423
2979
+ },
2980
+ {
2981
+ "epoch": 0.33892885691446845,
2982
+ "grad_norm": 0.39607423543930054,
2983
+ "learning_rate": 0.00014992690407013634,
2984
+ "loss": 0.9871,
2985
+ "step": 424
2986
+ },
2987
+ {
2988
+ "epoch": 0.33972821742605913,
2989
+ "grad_norm": 0.3925151824951172,
2990
+ "learning_rate": 0.0001497074031846027,
2991
+ "loss": 1.0183,
2992
+ "step": 425
2993
+ },
2994
+ {
2995
+ "epoch": 0.3405275779376499,
2996
+ "grad_norm": 0.40714192390441895,
2997
+ "learning_rate": 0.00014948758374949713,
2998
+ "loss": 1.1662,
2999
+ "step": 426
3000
+ },
3001
+ {
3002
+ "epoch": 0.3413269384492406,
3003
+ "grad_norm": 0.5418148636817932,
3004
+ "learning_rate": 0.0001492674471735311,
3005
+ "loss": 0.9804,
3006
+ "step": 427
3007
+ },
3008
+ {
3009
+ "epoch": 0.34212629896083135,
3010
+ "grad_norm": 0.5795961022377014,
3011
+ "learning_rate": 0.00014904699486744847,
3012
+ "loss": 1.2834,
3013
+ "step": 428
3014
+ },
3015
+ {
3016
+ "epoch": 0.34292565947242204,
3017
+ "grad_norm": 0.4905664920806885,
3018
+ "learning_rate": 0.0001488262282440163,
3019
+ "loss": 1.0091,
3020
+ "step": 429
3021
+ },
3022
+ {
3023
+ "epoch": 0.3437250199840128,
3024
+ "grad_norm": 0.5001060366630554,
3025
+ "learning_rate": 0.00014860514871801618,
3026
+ "loss": 1.1577,
3027
+ "step": 430
3028
+ },
3029
+ {
3030
+ "epoch": 0.3445243804956035,
3031
+ "grad_norm": 0.7573508620262146,
3032
+ "learning_rate": 0.0001483837577062348,
3033
+ "loss": 0.9795,
3034
+ "step": 431
3035
+ },
3036
+ {
3037
+ "epoch": 0.34532374100719426,
3038
+ "grad_norm": 0.4972291886806488,
3039
+ "learning_rate": 0.00014816205662745497,
3040
+ "loss": 1.1244,
3041
+ "step": 432
3042
+ },
3043
+ {
3044
+ "epoch": 0.34612310151878495,
3045
+ "grad_norm": 0.5998781323432922,
3046
+ "learning_rate": 0.00014794004690244669,
3047
+ "loss": 1.1667,
3048
+ "step": 433
3049
+ },
3050
+ {
3051
+ "epoch": 0.3469224620303757,
3052
+ "grad_norm": 0.6669907569885254,
3053
+ "learning_rate": 0.00014771772995395777,
3054
+ "loss": 1.1025,
3055
+ "step": 434
3056
+ },
3057
+ {
3058
+ "epoch": 0.34772182254196643,
3059
+ "grad_norm": 0.6359307169914246,
3060
+ "learning_rate": 0.00014749510720670506,
3061
+ "loss": 0.9878,
3062
+ "step": 435
3063
+ },
3064
+ {
3065
+ "epoch": 0.34852118305355717,
3066
+ "grad_norm": 0.7467820048332214,
3067
+ "learning_rate": 0.00014727218008736486,
3068
+ "loss": 1.1126,
3069
+ "step": 436
3070
+ },
3071
+ {
3072
+ "epoch": 0.34932054356514786,
3073
+ "grad_norm": 0.6224162578582764,
3074
+ "learning_rate": 0.00014704895002456424,
3075
+ "loss": 1.0024,
3076
+ "step": 437
3077
+ },
3078
+ {
3079
+ "epoch": 0.3501199040767386,
3080
+ "grad_norm": 0.70039963722229,
3081
+ "learning_rate": 0.00014682541844887164,
3082
+ "loss": 1.219,
3083
+ "step": 438
3084
+ },
3085
+ {
3086
+ "epoch": 0.35091926458832934,
3087
+ "grad_norm": 0.7462148070335388,
3088
+ "learning_rate": 0.00014660158679278765,
3089
+ "loss": 1.106,
3090
+ "step": 439
3091
+ },
3092
+ {
3093
+ "epoch": 0.3517186250999201,
3094
+ "grad_norm": 0.7545698881149292,
3095
+ "learning_rate": 0.00014637745649073602,
3096
+ "loss": 1.2432,
3097
+ "step": 440
3098
+ },
3099
+ {
3100
+ "epoch": 0.35251798561151076,
3101
+ "grad_norm": 0.7020461559295654,
3102
+ "learning_rate": 0.00014615302897905434,
3103
+ "loss": 1.1659,
3104
+ "step": 441
3105
+ },
3106
+ {
3107
+ "epoch": 0.3533173461231015,
3108
+ "grad_norm": 0.7818939685821533,
3109
+ "learning_rate": 0.0001459283056959849,
3110
+ "loss": 0.9831,
3111
+ "step": 442
3112
+ },
3113
+ {
3114
+ "epoch": 0.35411670663469225,
3115
+ "grad_norm": 0.8227357268333435,
3116
+ "learning_rate": 0.00014570328808166539,
3117
+ "loss": 1.049,
3118
+ "step": 443
3119
+ },
3120
+ {
3121
+ "epoch": 0.354916067146283,
3122
+ "grad_norm": 0.8649093508720398,
3123
+ "learning_rate": 0.0001454779775781197,
3124
+ "loss": 1.3937,
3125
+ "step": 444
3126
+ },
3127
+ {
3128
+ "epoch": 0.35571542765787373,
3129
+ "grad_norm": 0.8531369566917419,
3130
+ "learning_rate": 0.00014525237562924877,
3131
+ "loss": 1.2183,
3132
+ "step": 445
3133
+ },
3134
+ {
3135
+ "epoch": 0.3565147881694644,
3136
+ "grad_norm": 1.2276400327682495,
3137
+ "learning_rate": 0.00014502648368082123,
3138
+ "loss": 1.4021,
3139
+ "step": 446
3140
+ },
3141
+ {
3142
+ "epoch": 0.35731414868105515,
3143
+ "grad_norm": 1.1620177030563354,
3144
+ "learning_rate": 0.00014480030318046416,
3145
+ "loss": 1.3332,
3146
+ "step": 447
3147
+ },
3148
+ {
3149
+ "epoch": 0.3581135091926459,
3150
+ "grad_norm": 1.2599079608917236,
3151
+ "learning_rate": 0.00014457383557765386,
3152
+ "loss": 1.4229,
3153
+ "step": 448
3154
+ },
3155
+ {
3156
+ "epoch": 0.35891286970423664,
3157
+ "grad_norm": 1.5748292207717896,
3158
+ "learning_rate": 0.0001443470823237064,
3159
+ "loss": 0.9769,
3160
+ "step": 449
3161
+ },
3162
+ {
3163
+ "epoch": 0.3597122302158273,
3164
+ "grad_norm": 1.4127042293548584,
3165
+ "learning_rate": 0.0001441200448717687,
3166
+ "loss": 0.8914,
3167
+ "step": 450
3168
+ },
3169
+ {
3170
+ "epoch": 0.36051159072741806,
3171
+ "grad_norm": 0.3052649199962616,
3172
+ "learning_rate": 0.0001438927246768087,
3173
+ "loss": 0.8243,
3174
+ "step": 451
3175
+ },
3176
+ {
3177
+ "epoch": 0.3613109512390088,
3178
+ "grad_norm": 0.38650140166282654,
3179
+ "learning_rate": 0.0001436651231956064,
3180
+ "loss": 1.1737,
3181
+ "step": 452
3182
+ },
3183
+ {
3184
+ "epoch": 0.36211031175059955,
3185
+ "grad_norm": 0.3861415982246399,
3186
+ "learning_rate": 0.00014343724188674447,
3187
+ "loss": 1.1948,
3188
+ "step": 453
3189
+ },
3190
+ {
3191
+ "epoch": 0.36290967226219023,
3192
+ "grad_norm": 0.42397868633270264,
3193
+ "learning_rate": 0.00014320908221059875,
3194
+ "loss": 1.0755,
3195
+ "step": 454
3196
+ },
3197
+ {
3198
+ "epoch": 0.36370903277378097,
3199
+ "grad_norm": 0.33729004859924316,
3200
+ "learning_rate": 0.00014298064562932904,
3201
+ "loss": 1.0324,
3202
+ "step": 455
3203
+ },
3204
+ {
3205
+ "epoch": 0.3645083932853717,
3206
+ "grad_norm": 0.46672719717025757,
3207
+ "learning_rate": 0.0001427519336068698,
3208
+ "loss": 1.1945,
3209
+ "step": 456
3210
+ },
3211
+ {
3212
+ "epoch": 0.36530775379696245,
3213
+ "grad_norm": 0.36421141028404236,
3214
+ "learning_rate": 0.0001425229476089204,
3215
+ "loss": 1.1335,
3216
+ "step": 457
3217
+ },
3218
+ {
3219
+ "epoch": 0.36610711430855314,
3220
+ "grad_norm": 0.4340507686138153,
3221
+ "learning_rate": 0.00014229368910293627,
3222
+ "loss": 1.0877,
3223
+ "step": 458
3224
+ },
3225
+ {
3226
+ "epoch": 0.3669064748201439,
3227
+ "grad_norm": 0.34189310669898987,
3228
+ "learning_rate": 0.00014206415955811898,
3229
+ "loss": 1.0999,
3230
+ "step": 459
3231
+ },
3232
+ {
3233
+ "epoch": 0.3677058353317346,
3234
+ "grad_norm": 0.3289022147655487,
3235
+ "learning_rate": 0.00014183436044540713,
3236
+ "loss": 1.055,
3237
+ "step": 460
3238
+ },
3239
+ {
3240
+ "epoch": 0.36850519584332536,
3241
+ "grad_norm": 0.3434530198574066,
3242
+ "learning_rate": 0.00014160429323746687,
3243
+ "loss": 1.0693,
3244
+ "step": 461
3245
+ },
3246
+ {
3247
+ "epoch": 0.36930455635491605,
3248
+ "grad_norm": 0.3331538438796997,
3249
+ "learning_rate": 0.00014137395940868244,
3250
+ "loss": 1.0318,
3251
+ "step": 462
3252
+ },
3253
+ {
3254
+ "epoch": 0.3701039168665068,
3255
+ "grad_norm": 0.3151646852493286,
3256
+ "learning_rate": 0.00014114336043514661,
3257
+ "loss": 1.1513,
3258
+ "step": 463
3259
+ },
3260
+ {
3261
+ "epoch": 0.37090327737809753,
3262
+ "grad_norm": 0.3027523159980774,
3263
+ "learning_rate": 0.0001409124977946515,
3264
+ "loss": 1.2295,
3265
+ "step": 464
3266
+ },
3267
+ {
3268
+ "epoch": 0.37170263788968827,
3269
+ "grad_norm": 0.3899821639060974,
3270
+ "learning_rate": 0.00014068137296667884,
3271
+ "loss": 1.3589,
3272
+ "step": 465
3273
+ },
3274
+ {
3275
+ "epoch": 0.37250199840127896,
3276
+ "grad_norm": 0.4125242233276367,
3277
+ "learning_rate": 0.0001404499874323905,
3278
+ "loss": 1.0456,
3279
+ "step": 466
3280
+ },
3281
+ {
3282
+ "epoch": 0.3733013589128697,
3283
+ "grad_norm": 0.3297238051891327,
3284
+ "learning_rate": 0.00014021834267461932,
3285
+ "loss": 1.2101,
3286
+ "step": 467
3287
+ },
3288
+ {
3289
+ "epoch": 0.37410071942446044,
3290
+ "grad_norm": 0.40019673109054565,
3291
+ "learning_rate": 0.00013998644017785913,
3292
+ "loss": 1.0543,
3293
+ "step": 468
3294
+ },
3295
+ {
3296
+ "epoch": 0.3749000799360512,
3297
+ "grad_norm": 0.36964860558509827,
3298
+ "learning_rate": 0.0001397542814282556,
3299
+ "loss": 1.2206,
3300
+ "step": 469
3301
+ },
3302
+ {
3303
+ "epoch": 0.37569944044764186,
3304
+ "grad_norm": 0.3775829076766968,
3305
+ "learning_rate": 0.0001395218679135966,
3306
+ "loss": 0.9938,
3307
+ "step": 470
3308
+ },
3309
+ {
3310
+ "epoch": 0.3764988009592326,
3311
+ "grad_norm": 0.3969877064228058,
3312
+ "learning_rate": 0.00013928920112330262,
3313
+ "loss": 1.126,
3314
+ "step": 471
3315
+ },
3316
+ {
3317
+ "epoch": 0.37729816147082335,
3318
+ "grad_norm": 0.43040886521339417,
3319
+ "learning_rate": 0.00013905628254841729,
3320
+ "loss": 1.1977,
3321
+ "step": 472
3322
+ },
3323
+ {
3324
+ "epoch": 0.3780975219824141,
3325
+ "grad_norm": 0.35382160544395447,
3326
+ "learning_rate": 0.00013882311368159782,
3327
+ "loss": 0.9983,
3328
+ "step": 473
3329
+ },
3330
+ {
3331
+ "epoch": 0.37889688249400477,
3332
+ "grad_norm": 0.362121045589447,
3333
+ "learning_rate": 0.00013858969601710533,
3334
+ "loss": 0.9183,
3335
+ "step": 474
3336
+ },
3337
+ {
3338
+ "epoch": 0.3796962430055955,
3339
+ "grad_norm": 0.4062749445438385,
3340
+ "learning_rate": 0.00013835603105079539,
3341
+ "loss": 0.9459,
3342
+ "step": 475
3343
+ },
3344
+ {
3345
+ "epoch": 0.38049560351718625,
3346
+ "grad_norm": 0.4215144217014313,
3347
+ "learning_rate": 0.00013812212028010854,
3348
+ "loss": 1.0205,
3349
+ "step": 476
3350
+ },
3351
+ {
3352
+ "epoch": 0.381294964028777,
3353
+ "grad_norm": 0.49302709102630615,
3354
+ "learning_rate": 0.00013788796520406034,
3355
+ "loss": 1.0908,
3356
+ "step": 477
3357
+ },
3358
+ {
3359
+ "epoch": 0.3820943245403677,
3360
+ "grad_norm": 0.49464038014411926,
3361
+ "learning_rate": 0.0001376535673232321,
3362
+ "loss": 1.0684,
3363
+ "step": 478
3364
+ },
3365
+ {
3366
+ "epoch": 0.3828936850519584,
3367
+ "grad_norm": 0.4653661549091339,
3368
+ "learning_rate": 0.00013741892813976116,
3369
+ "loss": 1.1386,
3370
+ "step": 479
3371
+ },
3372
+ {
3373
+ "epoch": 0.38369304556354916,
3374
+ "grad_norm": 0.5560212731361389,
3375
+ "learning_rate": 0.0001371840491573312,
3376
+ "loss": 1.1828,
3377
+ "step": 480
3378
+ },
3379
+ {
3380
+ "epoch": 0.3844924060751399,
3381
+ "grad_norm": 0.46823370456695557,
3382
+ "learning_rate": 0.0001369489318811626,
3383
+ "loss": 1.1321,
3384
+ "step": 481
3385
+ },
3386
+ {
3387
+ "epoch": 0.3852917665867306,
3388
+ "grad_norm": 0.5444937348365784,
3389
+ "learning_rate": 0.000136713577818003,
3390
+ "loss": 1.0788,
3391
+ "step": 482
3392
+ },
3393
+ {
3394
+ "epoch": 0.38609112709832133,
3395
+ "grad_norm": 0.5422117710113525,
3396
+ "learning_rate": 0.0001364779884761173,
3397
+ "loss": 1.1162,
3398
+ "step": 483
3399
+ },
3400
+ {
3401
+ "epoch": 0.38689048760991207,
3402
+ "grad_norm": 0.5373064875602722,
3403
+ "learning_rate": 0.0001362421653652784,
3404
+ "loss": 1.0085,
3405
+ "step": 484
3406
+ },
3407
+ {
3408
+ "epoch": 0.3876898481215028,
3409
+ "grad_norm": 0.6702423095703125,
3410
+ "learning_rate": 0.00013600610999675702,
3411
+ "loss": 1.0995,
3412
+ "step": 485
3413
+ },
3414
+ {
3415
+ "epoch": 0.38848920863309355,
3416
+ "grad_norm": 0.5719643235206604,
3417
+ "learning_rate": 0.0001357698238833126,
3418
+ "loss": 0.9434,
3419
+ "step": 486
3420
+ },
3421
+ {
3422
+ "epoch": 0.38928856914468424,
3423
+ "grad_norm": 0.5578810572624207,
3424
+ "learning_rate": 0.00013553330853918304,
3425
+ "loss": 1.1579,
3426
+ "step": 487
3427
+ },
3428
+ {
3429
+ "epoch": 0.390087929656275,
3430
+ "grad_norm": 0.7008306384086609,
3431
+ "learning_rate": 0.0001352965654800755,
3432
+ "loss": 1.0893,
3433
+ "step": 488
3434
+ },
3435
+ {
3436
+ "epoch": 0.3908872901678657,
3437
+ "grad_norm": 0.6100425124168396,
3438
+ "learning_rate": 0.0001350595962231563,
3439
+ "loss": 1.1744,
3440
+ "step": 489
3441
+ },
3442
+ {
3443
+ "epoch": 0.39168665067945646,
3444
+ "grad_norm": 0.7699117064476013,
3445
+ "learning_rate": 0.00013482240228704142,
3446
+ "loss": 1.1863,
3447
+ "step": 490
3448
+ },
3449
+ {
3450
+ "epoch": 0.39248601119104715,
3451
+ "grad_norm": 0.7704407572746277,
3452
+ "learning_rate": 0.00013458498519178664,
3453
+ "loss": 1.1027,
3454
+ "step": 491
3455
+ },
3456
+ {
3457
+ "epoch": 0.3932853717026379,
3458
+ "grad_norm": 0.8181988000869751,
3459
+ "learning_rate": 0.00013434734645887788,
3460
+ "loss": 0.897,
3461
+ "step": 492
3462
+ },
3463
+ {
3464
+ "epoch": 0.39408473221422863,
3465
+ "grad_norm": 0.8602463603019714,
3466
+ "learning_rate": 0.00013410948761122143,
3467
+ "loss": 1.0187,
3468
+ "step": 493
3469
+ },
3470
+ {
3471
+ "epoch": 0.39488409272581937,
3472
+ "grad_norm": 0.8925572037696838,
3473
+ "learning_rate": 0.00013387141017313418,
3474
+ "loss": 1.1308,
3475
+ "step": 494
3476
+ },
3477
+ {
3478
+ "epoch": 0.39568345323741005,
3479
+ "grad_norm": 0.8595069050788879,
3480
+ "learning_rate": 0.00013363311567033382,
3481
+ "loss": 1.1001,
3482
+ "step": 495
3483
+ },
3484
+ {
3485
+ "epoch": 0.3964828137490008,
3486
+ "grad_norm": 0.7815159559249878,
3487
+ "learning_rate": 0.0001333946056299292,
3488
+ "loss": 1.0728,
3489
+ "step": 496
3490
+ },
3491
+ {
3492
+ "epoch": 0.39728217426059154,
3493
+ "grad_norm": 0.9263238310813904,
3494
+ "learning_rate": 0.00013315588158041032,
3495
+ "loss": 1.1485,
3496
+ "step": 497
3497
+ },
3498
+ {
3499
+ "epoch": 0.3980815347721823,
3500
+ "grad_norm": 1.121984839439392,
3501
+ "learning_rate": 0.0001329169450516387,
3502
+ "loss": 0.9351,
3503
+ "step": 498
3504
+ },
3505
+ {
3506
+ "epoch": 0.39888089528377296,
3507
+ "grad_norm": 1.190191388130188,
3508
+ "learning_rate": 0.0001326777975748376,
3509
+ "loss": 1.1409,
3510
+ "step": 499
3511
+ },
3512
+ {
3513
+ "epoch": 0.3996802557953637,
3514
+ "grad_norm": 1.6871143579483032,
3515
+ "learning_rate": 0.000132438440682582,
3516
+ "loss": 1.2688,
3517
+ "step": 500
3518
+ },
3519
+ {
3520
+ "epoch": 0.40047961630695444,
3521
+ "grad_norm": 0.3561265468597412,
3522
+ "learning_rate": 0.00013219887590878903,
3523
+ "loss": 1.0588,
3524
+ "step": 501
3525
+ },
3526
+ {
3527
+ "epoch": 0.4012789768185452,
3528
+ "grad_norm": 0.37955114245414734,
3529
+ "learning_rate": 0.00013195910478870803,
3530
+ "loss": 1.0717,
3531
+ "step": 502
3532
+ },
3533
+ {
3534
+ "epoch": 0.40207833733013587,
3535
+ "grad_norm": 0.3907930850982666,
3536
+ "learning_rate": 0.00013171912885891063,
3537
+ "loss": 1.1347,
3538
+ "step": 503
3539
+ },
3540
+ {
3541
+ "epoch": 0.4028776978417266,
3542
+ "grad_norm": 0.3910665214061737,
3543
+ "learning_rate": 0.000131478949657281,
3544
+ "loss": 1.2596,
3545
+ "step": 504
3546
+ },
3547
+ {
3548
+ "epoch": 0.40367705835331735,
3549
+ "grad_norm": 0.3303968012332916,
3550
+ "learning_rate": 0.00013123856872300607,
3551
+ "loss": 0.8503,
3552
+ "step": 505
3553
+ },
3554
+ {
3555
+ "epoch": 0.4044764188649081,
3556
+ "grad_norm": 0.383739173412323,
3557
+ "learning_rate": 0.00013099798759656545,
3558
+ "loss": 1.1542,
3559
+ "step": 506
3560
+ },
3561
+ {
3562
+ "epoch": 0.4052757793764988,
3563
+ "grad_norm": 0.3624424934387207,
3564
+ "learning_rate": 0.00013075720781972175,
3565
+ "loss": 1.2591,
3566
+ "step": 507
3567
+ },
3568
+ {
3569
+ "epoch": 0.4060751398880895,
3570
+ "grad_norm": 0.33615046739578247,
3571
+ "learning_rate": 0.00013051623093551063,
3572
+ "loss": 1.1455,
3573
+ "step": 508
3574
+ },
3575
+ {
3576
+ "epoch": 0.40687450039968026,
3577
+ "grad_norm": 0.3861737847328186,
3578
+ "learning_rate": 0.00013027505848823084,
3579
+ "loss": 1.0889,
3580
+ "step": 509
3581
+ },
3582
+ {
3583
+ "epoch": 0.407673860911271,
3584
+ "grad_norm": 0.43577584624290466,
3585
+ "learning_rate": 0.00013003369202343453,
3586
+ "loss": 1.1141,
3587
+ "step": 510
3588
+ },
3589
+ {
3590
+ "epoch": 0.4084732214228617,
3591
+ "grad_norm": 0.3891628086566925,
3592
+ "learning_rate": 0.0001297921330879171,
3593
+ "loss": 1.2212,
3594
+ "step": 511
3595
+ },
3596
+ {
3597
+ "epoch": 0.40927258193445243,
3598
+ "grad_norm": 0.35330793261528015,
3599
+ "learning_rate": 0.00012955038322970736,
3600
+ "loss": 1.1245,
3601
+ "step": 512
3602
+ },
3603
+ {
3604
+ "epoch": 0.41007194244604317,
3605
+ "grad_norm": 0.3083156645298004,
3606
+ "learning_rate": 0.0001293084439980578,
3607
+ "loss": 1.1398,
3608
+ "step": 513
3609
+ },
3610
+ {
3611
+ "epoch": 0.4108713029576339,
3612
+ "grad_norm": 0.3527776300907135,
3613
+ "learning_rate": 0.00012906631694343436,
3614
+ "loss": 1.0458,
3615
+ "step": 514
3616
+ },
3617
+ {
3618
+ "epoch": 0.4116706634692246,
3619
+ "grad_norm": 0.34124818444252014,
3620
+ "learning_rate": 0.00012882400361750675,
3621
+ "loss": 1.2349,
3622
+ "step": 515
3623
+ },
3624
+ {
3625
+ "epoch": 0.41247002398081534,
3626
+ "grad_norm": 0.3764817416667938,
3627
+ "learning_rate": 0.0001285815055731383,
3628
+ "loss": 1.1106,
3629
+ "step": 516
3630
+ },
3631
+ {
3632
+ "epoch": 0.4132693844924061,
3633
+ "grad_norm": 0.35788124799728394,
3634
+ "learning_rate": 0.00012833882436437624,
3635
+ "loss": 1.0105,
3636
+ "step": 517
3637
+ },
3638
+ {
3639
+ "epoch": 0.4140687450039968,
3640
+ "grad_norm": 0.35195162892341614,
3641
+ "learning_rate": 0.00012809596154644148,
3642
+ "loss": 1.034,
3643
+ "step": 518
3644
+ },
3645
+ {
3646
+ "epoch": 0.4148681055155875,
3647
+ "grad_norm": 0.3743147552013397,
3648
+ "learning_rate": 0.00012785291867571883,
3649
+ "loss": 1.1551,
3650
+ "step": 519
3651
+ },
3652
+ {
3653
+ "epoch": 0.41566746602717825,
3654
+ "grad_norm": 0.37264588475227356,
3655
+ "learning_rate": 0.00012760969730974694,
3656
+ "loss": 1.084,
3657
+ "step": 520
3658
+ },
3659
+ {
3660
+ "epoch": 0.416466826538769,
3661
+ "grad_norm": 0.4359087646007538,
3662
+ "learning_rate": 0.0001273662990072083,
3663
+ "loss": 1.1565,
3664
+ "step": 521
3665
+ },
3666
+ {
3667
+ "epoch": 0.4172661870503597,
3668
+ "grad_norm": 0.4252093732357025,
3669
+ "learning_rate": 0.00012712272532791946,
3670
+ "loss": 1.1465,
3671
+ "step": 522
3672
+ },
3673
+ {
3674
+ "epoch": 0.4180655475619504,
3675
+ "grad_norm": 0.4450690746307373,
3676
+ "learning_rate": 0.0001268789778328207,
3677
+ "loss": 1.051,
3678
+ "step": 523
3679
+ },
3680
+ {
3681
+ "epoch": 0.41886490807354115,
3682
+ "grad_norm": 0.4181789755821228,
3683
+ "learning_rate": 0.0001266350580839664,
3684
+ "loss": 0.94,
3685
+ "step": 524
3686
+ },
3687
+ {
3688
+ "epoch": 0.4196642685851319,
3689
+ "grad_norm": 0.43827134370803833,
3690
+ "learning_rate": 0.0001263909676445145,
3691
+ "loss": 1.1064,
3692
+ "step": 525
3693
+ },
3694
+ {
3695
+ "epoch": 0.42046362909672264,
3696
+ "grad_norm": 0.43333086371421814,
3697
+ "learning_rate": 0.0001261467080787171,
3698
+ "loss": 1.0093,
3699
+ "step": 526
3700
+ },
3701
+ {
3702
+ "epoch": 0.4212629896083134,
3703
+ "grad_norm": 0.4483776092529297,
3704
+ "learning_rate": 0.0001259022809519101,
3705
+ "loss": 0.9522,
3706
+ "step": 527
3707
+ },
3708
+ {
3709
+ "epoch": 0.42206235011990406,
3710
+ "grad_norm": 0.42380601167678833,
3711
+ "learning_rate": 0.00012565768783050305,
3712
+ "loss": 1.1873,
3713
+ "step": 528
3714
+ },
3715
+ {
3716
+ "epoch": 0.4228617106314948,
3717
+ "grad_norm": 0.46552905440330505,
3718
+ "learning_rate": 0.00012541293028196944,
3719
+ "loss": 1.1422,
3720
+ "step": 529
3721
+ },
3722
+ {
3723
+ "epoch": 0.42366107114308554,
3724
+ "grad_norm": 0.4734083414077759,
3725
+ "learning_rate": 0.0001251680098748365,
3726
+ "loss": 1.1511,
3727
+ "step": 530
3728
+ },
3729
+ {
3730
+ "epoch": 0.4244604316546763,
3731
+ "grad_norm": 0.5062898993492126,
3732
+ "learning_rate": 0.00012492292817867497,
3733
+ "loss": 0.8868,
3734
+ "step": 531
3735
+ },
3736
+ {
3737
+ "epoch": 0.42525979216626697,
3738
+ "grad_norm": 0.57962566614151,
3739
+ "learning_rate": 0.00012467768676408935,
3740
+ "loss": 1.072,
3741
+ "step": 532
3742
+ },
3743
+ {
3744
+ "epoch": 0.4260591526778577,
3745
+ "grad_norm": 0.5128533244132996,
3746
+ "learning_rate": 0.00012443228720270767,
3747
+ "loss": 0.9567,
3748
+ "step": 533
3749
+ },
3750
+ {
3751
+ "epoch": 0.42685851318944845,
3752
+ "grad_norm": 0.5683857202529907,
3753
+ "learning_rate": 0.00012418673106717143,
3754
+ "loss": 1.2017,
3755
+ "step": 534
3756
+ },
3757
+ {
3758
+ "epoch": 0.4276578737010392,
3759
+ "grad_norm": 0.5700757503509521,
3760
+ "learning_rate": 0.00012394101993112557,
3761
+ "loss": 1.2576,
3762
+ "step": 535
3763
+ },
3764
+ {
3765
+ "epoch": 0.4284572342126299,
3766
+ "grad_norm": 0.7162390351295471,
3767
+ "learning_rate": 0.00012369515536920825,
3768
+ "loss": 1.0045,
3769
+ "step": 536
3770
+ },
3771
+ {
3772
+ "epoch": 0.4292565947242206,
3773
+ "grad_norm": 0.594262421131134,
3774
+ "learning_rate": 0.00012344913895704097,
3775
+ "loss": 0.8915,
3776
+ "step": 537
3777
+ },
3778
+ {
3779
+ "epoch": 0.43005595523581136,
3780
+ "grad_norm": 0.6075459718704224,
3781
+ "learning_rate": 0.00012320297227121833,
3782
+ "loss": 1.1498,
3783
+ "step": 538
3784
+ },
3785
+ {
3786
+ "epoch": 0.4308553157474021,
3787
+ "grad_norm": 0.7022448182106018,
3788
+ "learning_rate": 0.0001229566568892979,
3789
+ "loss": 1.1091,
3790
+ "step": 539
3791
+ },
3792
+ {
3793
+ "epoch": 0.4316546762589928,
3794
+ "grad_norm": 0.8270899057388306,
3795
+ "learning_rate": 0.00012271019438979023,
3796
+ "loss": 1.1842,
3797
+ "step": 540
3798
+ },
3799
+ {
3800
+ "epoch": 0.4324540367705835,
3801
+ "grad_norm": 0.7911314368247986,
3802
+ "learning_rate": 0.00012246358635214868,
3803
+ "loss": 1.0775,
3804
+ "step": 541
3805
+ },
3806
+ {
3807
+ "epoch": 0.43325339728217427,
3808
+ "grad_norm": 0.6665616035461426,
3809
+ "learning_rate": 0.0001222168343567592,
3810
+ "loss": 1.0582,
3811
+ "step": 542
3812
+ },
3813
+ {
3814
+ "epoch": 0.434052757793765,
3815
+ "grad_norm": 0.7318521738052368,
3816
+ "learning_rate": 0.00012196993998493043,
3817
+ "loss": 1.1444,
3818
+ "step": 543
3819
+ },
3820
+ {
3821
+ "epoch": 0.4348521183053557,
3822
+ "grad_norm": 0.7249645590782166,
3823
+ "learning_rate": 0.00012172290481888331,
3824
+ "loss": 1.086,
3825
+ "step": 544
3826
+ },
3827
+ {
3828
+ "epoch": 0.43565147881694644,
3829
+ "grad_norm": 0.8864445090293884,
3830
+ "learning_rate": 0.00012147573044174112,
3831
+ "loss": 1.3008,
3832
+ "step": 545
3833
+ },
3834
+ {
3835
+ "epoch": 0.4364508393285372,
3836
+ "grad_norm": 0.7858752012252808,
3837
+ "learning_rate": 0.00012122841843751924,
3838
+ "loss": 1.1622,
3839
+ "step": 546
3840
+ },
3841
+ {
3842
+ "epoch": 0.4372501998401279,
3843
+ "grad_norm": 0.8661579489707947,
3844
+ "learning_rate": 0.00012098097039111512,
3845
+ "loss": 1.009,
3846
+ "step": 547
3847
+ },
3848
+ {
3849
+ "epoch": 0.4380495603517186,
3850
+ "grad_norm": 1.0622788667678833,
3851
+ "learning_rate": 0.00012073338788829787,
3852
+ "loss": 1.044,
3853
+ "step": 548
3854
+ },
3855
+ {
3856
+ "epoch": 0.43884892086330934,
3857
+ "grad_norm": 1.1994202136993408,
3858
+ "learning_rate": 0.0001204856725156984,
3859
+ "loss": 1.1495,
3860
+ "step": 549
3861
+ },
3862
+ {
3863
+ "epoch": 0.4396482813749001,
3864
+ "grad_norm": 1.5216366052627563,
3865
+ "learning_rate": 0.00012023782586079908,
3866
+ "loss": 1.1216,
3867
+ "step": 550
3868
+ },
3869
+ {
3870
+ "epoch": 0.4404476418864908,
3871
+ "grad_norm": 0.4045037627220154,
3872
+ "learning_rate": 0.00011998984951192361,
3873
+ "loss": 1.0062,
3874
+ "step": 551
3875
+ },
3876
+ {
3877
+ "epoch": 0.4412470023980815,
3878
+ "grad_norm": 0.39483803510665894,
3879
+ "learning_rate": 0.00011974174505822677,
3880
+ "loss": 0.9856,
3881
+ "step": 552
3882
+ },
3883
+ {
3884
+ "epoch": 0.44204636290967225,
3885
+ "grad_norm": 0.409810870885849,
3886
+ "learning_rate": 0.00011949351408968439,
3887
+ "loss": 1.0131,
3888
+ "step": 553
3889
+ },
3890
+ {
3891
+ "epoch": 0.442845723421263,
3892
+ "grad_norm": 0.3824607729911804,
3893
+ "learning_rate": 0.000119245158197083,
3894
+ "loss": 1.0047,
3895
+ "step": 554
3896
+ },
3897
+ {
3898
+ "epoch": 0.44364508393285373,
3899
+ "grad_norm": 0.37841466069221497,
3900
+ "learning_rate": 0.00011899667897200977,
3901
+ "loss": 1.0711,
3902
+ "step": 555
3903
+ },
3904
+ {
3905
+ "epoch": 0.4444444444444444,
3906
+ "grad_norm": 0.3607119023799896,
3907
+ "learning_rate": 0.00011874807800684215,
3908
+ "loss": 1.0795,
3909
+ "step": 556
3910
+ },
3911
+ {
3912
+ "epoch": 0.44524380495603516,
3913
+ "grad_norm": 0.3559788465499878,
3914
+ "learning_rate": 0.00011849935689473786,
3915
+ "loss": 1.2118,
3916
+ "step": 557
3917
+ },
3918
+ {
3919
+ "epoch": 0.4460431654676259,
3920
+ "grad_norm": 0.678111732006073,
3921
+ "learning_rate": 0.00011825051722962453,
3922
+ "loss": 1.2167,
3923
+ "step": 558
3924
+ },
3925
+ {
3926
+ "epoch": 0.44684252597921664,
3927
+ "grad_norm": 0.3986605107784271,
3928
+ "learning_rate": 0.00011800156060618955,
3929
+ "loss": 1.1445,
3930
+ "step": 559
3931
+ },
3932
+ {
3933
+ "epoch": 0.44764188649080733,
3934
+ "grad_norm": 0.36188986897468567,
3935
+ "learning_rate": 0.00011775248861986978,
3936
+ "loss": 1.0736,
3937
+ "step": 560
3938
+ },
3939
+ {
3940
+ "epoch": 0.44844124700239807,
3941
+ "grad_norm": 0.33992865681648254,
3942
+ "learning_rate": 0.00011750330286684153,
3943
+ "loss": 1.1707,
3944
+ "step": 561
3945
+ },
3946
+ {
3947
+ "epoch": 0.4492406075139888,
3948
+ "grad_norm": 0.35370391607284546,
3949
+ "learning_rate": 0.00011725400494401,
3950
+ "loss": 1.1023,
3951
+ "step": 562
3952
+ },
3953
+ {
3954
+ "epoch": 0.45003996802557955,
3955
+ "grad_norm": 0.3561865985393524,
3956
+ "learning_rate": 0.00011700459644899937,
3957
+ "loss": 1.2305,
3958
+ "step": 563
3959
+ },
3960
+ {
3961
+ "epoch": 0.45083932853717024,
3962
+ "grad_norm": 0.37104496359825134,
3963
+ "learning_rate": 0.00011675507898014235,
3964
+ "loss": 1.1114,
3965
+ "step": 564
3966
+ },
3967
+ {
3968
+ "epoch": 0.451638689048761,
3969
+ "grad_norm": 0.350696861743927,
3970
+ "learning_rate": 0.00011650545413647,
3971
+ "loss": 1.1613,
3972
+ "step": 565
3973
+ },
3974
+ {
3975
+ "epoch": 0.4524380495603517,
3976
+ "grad_norm": 0.38277414441108704,
3977
+ "learning_rate": 0.00011625572351770155,
3978
+ "loss": 1.1631,
3979
+ "step": 566
3980
+ },
3981
+ {
3982
+ "epoch": 0.45323741007194246,
3983
+ "grad_norm": 0.35308247804641724,
3984
+ "learning_rate": 0.00011600588872423405,
3985
+ "loss": 1.1086,
3986
+ "step": 567
3987
+ },
3988
+ {
3989
+ "epoch": 0.4540367705835332,
3990
+ "grad_norm": 0.3877826929092407,
3991
+ "learning_rate": 0.0001157559513571322,
3992
+ "loss": 1.1722,
3993
+ "step": 568
3994
+ },
3995
+ {
3996
+ "epoch": 0.4548361310951239,
3997
+ "grad_norm": 0.38781118392944336,
3998
+ "learning_rate": 0.00011550591301811788,
3999
+ "loss": 1.013,
4000
+ "step": 569
4001
+ },
4002
+ {
4003
+ "epoch": 0.4556354916067146,
4004
+ "grad_norm": 0.40038326382637024,
4005
+ "learning_rate": 0.00011525577530956029,
4006
+ "loss": 1.0764,
4007
+ "step": 570
4008
+ },
4009
+ {
4010
+ "epoch": 0.45643485211830537,
4011
+ "grad_norm": 0.3875632584095001,
4012
+ "learning_rate": 0.00011500553983446527,
4013
+ "loss": 1.1239,
4014
+ "step": 571
4015
+ },
4016
+ {
4017
+ "epoch": 0.4572342126298961,
4018
+ "grad_norm": 0.44367122650146484,
4019
+ "learning_rate": 0.00011475520819646526,
4020
+ "loss": 1.0437,
4021
+ "step": 572
4022
+ },
4023
+ {
4024
+ "epoch": 0.4580335731414868,
4025
+ "grad_norm": 0.5386861562728882,
4026
+ "learning_rate": 0.0001145047819998089,
4027
+ "loss": 0.9693,
4028
+ "step": 573
4029
+ },
4030
+ {
4031
+ "epoch": 0.45883293365307753,
4032
+ "grad_norm": 0.5589727163314819,
4033
+ "learning_rate": 0.00011425426284935091,
4034
+ "loss": 1.0766,
4035
+ "step": 574
4036
+ },
4037
+ {
4038
+ "epoch": 0.4596322941646683,
4039
+ "grad_norm": 0.48679694533348083,
4040
+ "learning_rate": 0.0001140036523505416,
4041
+ "loss": 1.1827,
4042
+ "step": 575
4043
+ },
4044
+ {
4045
+ "epoch": 0.460431654676259,
4046
+ "grad_norm": 0.3698740005493164,
4047
+ "learning_rate": 0.00011375295210941674,
4048
+ "loss": 1.0565,
4049
+ "step": 576
4050
+ },
4051
+ {
4052
+ "epoch": 0.4612310151878497,
4053
+ "grad_norm": 0.4788266718387604,
4054
+ "learning_rate": 0.00011350216373258722,
4055
+ "loss": 1.006,
4056
+ "step": 577
4057
+ },
4058
+ {
4059
+ "epoch": 0.46203037569944044,
4060
+ "grad_norm": 0.6378310322761536,
4061
+ "learning_rate": 0.00011325128882722875,
4062
+ "loss": 1.2113,
4063
+ "step": 578
4064
+ },
4065
+ {
4066
+ "epoch": 0.4628297362110312,
4067
+ "grad_norm": 0.5069262981414795,
4068
+ "learning_rate": 0.00011300032900107147,
4069
+ "loss": 0.9833,
4070
+ "step": 579
4071
+ },
4072
+ {
4073
+ "epoch": 0.4636290967226219,
4074
+ "grad_norm": 0.44473326206207275,
4075
+ "learning_rate": 0.00011274928586238986,
4076
+ "loss": 1.0615,
4077
+ "step": 580
4078
+ },
4079
+ {
4080
+ "epoch": 0.4644284572342126,
4081
+ "grad_norm": 0.5024760961532593,
4082
+ "learning_rate": 0.00011249816101999227,
4083
+ "loss": 0.9796,
4084
+ "step": 581
4085
+ },
4086
+ {
4087
+ "epoch": 0.46522781774580335,
4088
+ "grad_norm": 0.537169337272644,
4089
+ "learning_rate": 0.00011224695608321056,
4090
+ "loss": 1.0713,
4091
+ "step": 582
4092
+ },
4093
+ {
4094
+ "epoch": 0.4660271782573941,
4095
+ "grad_norm": 0.6242894530296326,
4096
+ "learning_rate": 0.00011199567266188999,
4097
+ "loss": 1.3315,
4098
+ "step": 583
4099
+ },
4100
+ {
4101
+ "epoch": 0.46682653876898483,
4102
+ "grad_norm": 0.6122602820396423,
4103
+ "learning_rate": 0.00011174431236637874,
4104
+ "loss": 1.0745,
4105
+ "step": 584
4106
+ },
4107
+ {
4108
+ "epoch": 0.4676258992805755,
4109
+ "grad_norm": 0.5972760319709778,
4110
+ "learning_rate": 0.00011149287680751763,
4111
+ "loss": 1.1155,
4112
+ "step": 585
4113
+ },
4114
+ {
4115
+ "epoch": 0.46842525979216626,
4116
+ "grad_norm": 0.6527268290519714,
4117
+ "learning_rate": 0.0001112413675966298,
4118
+ "loss": 1.0451,
4119
+ "step": 586
4120
+ },
4121
+ {
4122
+ "epoch": 0.469224620303757,
4123
+ "grad_norm": 0.662009060382843,
4124
+ "learning_rate": 0.0001109897863455104,
4125
+ "loss": 1.1162,
4126
+ "step": 587
4127
+ },
4128
+ {
4129
+ "epoch": 0.47002398081534774,
4130
+ "grad_norm": 0.7552705407142639,
4131
+ "learning_rate": 0.00011073813466641632,
4132
+ "loss": 0.9946,
4133
+ "step": 588
4134
+ },
4135
+ {
4136
+ "epoch": 0.4708233413269384,
4137
+ "grad_norm": 0.7745950818061829,
4138
+ "learning_rate": 0.00011048641417205563,
4139
+ "loss": 1.1047,
4140
+ "step": 589
4141
+ },
4142
+ {
4143
+ "epoch": 0.47162270183852917,
4144
+ "grad_norm": 0.6825327277183533,
4145
+ "learning_rate": 0.00011023462647557751,
4146
+ "loss": 1.0597,
4147
+ "step": 590
4148
+ },
4149
+ {
4150
+ "epoch": 0.4724220623501199,
4151
+ "grad_norm": 0.9221934080123901,
4152
+ "learning_rate": 0.0001099827731905618,
4153
+ "loss": 1.0257,
4154
+ "step": 591
4155
+ },
4156
+ {
4157
+ "epoch": 0.47322142286171065,
4158
+ "grad_norm": 0.8638830184936523,
4159
+ "learning_rate": 0.0001097308559310087,
4160
+ "loss": 1.0615,
4161
+ "step": 592
4162
+ },
4163
+ {
4164
+ "epoch": 0.47402078337330134,
4165
+ "grad_norm": 0.921091616153717,
4166
+ "learning_rate": 0.00010947887631132823,
4167
+ "loss": 1.0958,
4168
+ "step": 593
4169
+ },
4170
+ {
4171
+ "epoch": 0.4748201438848921,
4172
+ "grad_norm": 0.9311054348945618,
4173
+ "learning_rate": 0.00010922683594633021,
4174
+ "loss": 1.1697,
4175
+ "step": 594
4176
+ },
4177
+ {
4178
+ "epoch": 0.4756195043964828,
4179
+ "grad_norm": 1.0105490684509277,
4180
+ "learning_rate": 0.00010897473645121372,
4181
+ "loss": 1.1954,
4182
+ "step": 595
4183
+ },
4184
+ {
4185
+ "epoch": 0.47641886490807356,
4186
+ "grad_norm": 0.9977965354919434,
4187
+ "learning_rate": 0.00010872257944155669,
4188
+ "loss": 1.1052,
4189
+ "step": 596
4190
+ },
4191
+ {
4192
+ "epoch": 0.47721822541966424,
4193
+ "grad_norm": 0.8218235969543457,
4194
+ "learning_rate": 0.00010847036653330568,
4195
+ "loss": 1.0016,
4196
+ "step": 597
4197
+ },
4198
+ {
4199
+ "epoch": 0.478017585931255,
4200
+ "grad_norm": 1.238542914390564,
4201
+ "learning_rate": 0.00010821809934276554,
4202
+ "loss": 1.1577,
4203
+ "step": 598
4204
+ },
4205
+ {
4206
+ "epoch": 0.4788169464428457,
4207
+ "grad_norm": 1.1989014148712158,
4208
+ "learning_rate": 0.00010796577948658892,
4209
+ "loss": 1.0534,
4210
+ "step": 599
4211
+ },
4212
+ {
4213
+ "epoch": 0.47961630695443647,
4214
+ "grad_norm": 1.591269612312317,
4215
+ "learning_rate": 0.00010771340858176594,
4216
+ "loss": 1.3851,
4217
+ "step": 600
4218
+ },
4219
+ {
4220
+ "epoch": 0.48041566746602715,
4221
+ "grad_norm": 0.3721429109573364,
4222
+ "learning_rate": 0.00010746098824561397,
4223
+ "loss": 0.9508,
4224
+ "step": 601
4225
+ },
4226
+ {
4227
+ "epoch": 0.4812150279776179,
4228
+ "grad_norm": 0.40401971340179443,
4229
+ "learning_rate": 0.00010720852009576705,
4230
+ "loss": 0.8829,
4231
+ "step": 602
4232
+ },
4233
+ {
4234
+ "epoch": 0.48201438848920863,
4235
+ "grad_norm": 0.4219840466976166,
4236
+ "learning_rate": 0.00010695600575016571,
4237
+ "loss": 0.9494,
4238
+ "step": 603
4239
+ },
4240
+ {
4241
+ "epoch": 0.4828137490007994,
4242
+ "grad_norm": 0.3684583604335785,
4243
+ "learning_rate": 0.0001067034468270465,
4244
+ "loss": 0.9306,
4245
+ "step": 604
4246
+ },
4247
+ {
4248
+ "epoch": 0.48361310951239006,
4249
+ "grad_norm": 0.3637100160121918,
4250
+ "learning_rate": 0.00010645084494493165,
4251
+ "loss": 1.1087,
4252
+ "step": 605
4253
+ },
4254
+ {
4255
+ "epoch": 0.4844124700239808,
4256
+ "grad_norm": 0.4035799503326416,
4257
+ "learning_rate": 0.00010619820172261867,
4258
+ "loss": 1.3074,
4259
+ "step": 606
4260
+ },
4261
+ {
4262
+ "epoch": 0.48521183053557154,
4263
+ "grad_norm": 0.39611637592315674,
4264
+ "learning_rate": 0.00010594551877917003,
4265
+ "loss": 0.9484,
4266
+ "step": 607
4267
+ },
4268
+ {
4269
+ "epoch": 0.4860111910471623,
4270
+ "grad_norm": 0.45287951827049255,
4271
+ "learning_rate": 0.00010569279773390273,
4272
+ "loss": 1.0403,
4273
+ "step": 608
4274
+ },
4275
+ {
4276
+ "epoch": 0.486810551558753,
4277
+ "grad_norm": 0.3595340847969055,
4278
+ "learning_rate": 0.00010544004020637799,
4279
+ "loss": 1.0235,
4280
+ "step": 609
4281
+ },
4282
+ {
4283
+ "epoch": 0.4876099120703437,
4284
+ "grad_norm": 0.3542434275150299,
4285
+ "learning_rate": 0.00010518724781639073,
4286
+ "loss": 1.2554,
4287
+ "step": 610
4288
+ },
4289
+ {
4290
+ "epoch": 0.48840927258193445,
4291
+ "grad_norm": 0.35258346796035767,
4292
+ "learning_rate": 0.00010493442218395936,
4293
+ "loss": 1.1231,
4294
+ "step": 611
4295
+ },
4296
+ {
4297
+ "epoch": 0.4892086330935252,
4298
+ "grad_norm": 0.3523050844669342,
4299
+ "learning_rate": 0.0001046815649293154,
4300
+ "loss": 1.0851,
4301
+ "step": 612
4302
+ },
4303
+ {
4304
+ "epoch": 0.49000799360511593,
4305
+ "grad_norm": 0.336111456155777,
4306
+ "learning_rate": 0.00010442867767289281,
4307
+ "loss": 1.0403,
4308
+ "step": 613
4309
+ },
4310
+ {
4311
+ "epoch": 0.4908073541167066,
4312
+ "grad_norm": 0.3554600775241852,
4313
+ "learning_rate": 0.000104175762035318,
4314
+ "loss": 1.1551,
4315
+ "step": 614
4316
+ },
4317
+ {
4318
+ "epoch": 0.49160671462829736,
4319
+ "grad_norm": 0.35645225644111633,
4320
+ "learning_rate": 0.00010392281963739918,
4321
+ "loss": 1.1704,
4322
+ "step": 615
4323
+ },
4324
+ {
4325
+ "epoch": 0.4924060751398881,
4326
+ "grad_norm": 0.4191342890262604,
4327
+ "learning_rate": 0.0001036698521001161,
4328
+ "loss": 1.0728,
4329
+ "step": 616
4330
+ },
4331
+ {
4332
+ "epoch": 0.49320543565147884,
4333
+ "grad_norm": 0.3663305342197418,
4334
+ "learning_rate": 0.00010341686104460954,
4335
+ "loss": 1.0764,
4336
+ "step": 617
4337
+ },
4338
+ {
4339
+ "epoch": 0.4940047961630695,
4340
+ "grad_norm": 0.3945816159248352,
4341
+ "learning_rate": 0.00010316384809217108,
4342
+ "loss": 1.0224,
4343
+ "step": 618
4344
+ },
4345
+ {
4346
+ "epoch": 0.49480415667466027,
4347
+ "grad_norm": 0.39029353857040405,
4348
+ "learning_rate": 0.0001029108148642326,
4349
+ "loss": 1.0606,
4350
+ "step": 619
4351
+ },
4352
+ {
4353
+ "epoch": 0.495603517186251,
4354
+ "grad_norm": 0.3495793342590332,
4355
+ "learning_rate": 0.00010265776298235586,
4356
+ "loss": 1.1024,
4357
+ "step": 620
4358
+ },
4359
+ {
4360
+ "epoch": 0.49640287769784175,
4361
+ "grad_norm": 0.3891185224056244,
4362
+ "learning_rate": 0.00010240469406822221,
4363
+ "loss": 0.9662,
4364
+ "step": 621
4365
+ },
4366
+ {
4367
+ "epoch": 0.49720223820943243,
4368
+ "grad_norm": 0.41916343569755554,
4369
+ "learning_rate": 0.00010215160974362223,
4370
+ "loss": 1.117,
4371
+ "step": 622
4372
+ },
4373
+ {
4374
+ "epoch": 0.4980015987210232,
4375
+ "grad_norm": 0.44954174757003784,
4376
+ "learning_rate": 0.0001018985116304451,
4377
+ "loss": 0.9685,
4378
+ "step": 623
4379
+ },
4380
+ {
4381
+ "epoch": 0.4988009592326139,
4382
+ "grad_norm": 0.40312501788139343,
4383
+ "learning_rate": 0.00010164540135066845,
4384
+ "loss": 1.022,
4385
+ "step": 624
4386
+ },
4387
+ {
4388
+ "epoch": 0.49960031974420466,
4389
+ "grad_norm": 0.4184950590133667,
4390
+ "learning_rate": 0.00010139228052634789,
4391
+ "loss": 1.0082,
4392
+ "step": 625
4393
+ },
4394
+ {
4395
+ "epoch": 0.5003996802557954,
4396
+ "grad_norm": 0.3949190676212311,
4397
+ "learning_rate": 0.00010113915077960658,
4398
+ "loss": 1.1159,
4399
+ "step": 626
4400
+ },
4401
+ {
4402
+ "epoch": 0.5003996802557954,
4403
+ "eval_loss": 1.0933643579483032,
4404
+ "eval_runtime": 39.8289,
4405
+ "eval_samples_per_second": 13.232,
4406
+ "eval_steps_per_second": 6.628,
4407
+ "step": 626
4408
  }
4409
  ],
4410
  "logging_steps": 1,
 
4424
  "attributes": {}
4425
  }
4426
  },
4427
+ "total_flos": 2.738333182674862e+17,
4428
  "train_batch_size": 2,
4429
  "trial_name": null,
4430
  "trial_params": null