vdos commited on
Commit
0ed4dbf
·
verified ·
1 Parent(s): f0da31e

Training in progress, step 939, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c989493fe7df843484cea0e733a7be3b53443088798c086877947d86f020d433
3
  size 80013120
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3604846a19ac3b77115d585ead1aac5a9e15883670144e52dc5ed0bd5a4e3df3
3
  size 80013120
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:817bc309147b93024431be53d6d5add25026b26292fefb0b8d503f1caab7b83e
3
  size 41120084
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ea98c7a9e0c7f22c65f26850f6d629d23542fca4f3fe6044e1636d5082b49ea8
3
  size 41120084
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:16488c6650b1c765ea62eeec5f572c77ea27de32fc87bfb1732715dd1732f390
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:05a47dc53eae4b2a045d7c32619d68939422882e33af538a7f3cf93707b17ea2
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:eda4edf49d712f7f7fe92801c041a6b5b3549336fb75bb6697c4ba84aa04be0e
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:32b655efac7593192052f720e800b384367a7b71e88224566b3b344d49dfcb74
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.5003996802557954,
5
  "eval_steps": 313,
6
- "global_step": 626,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -4405,6 +4405,2205 @@
4405
  "eval_samples_per_second": 13.066,
4406
  "eval_steps_per_second": 6.545,
4407
  "step": 626
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4408
  }
4409
  ],
4410
  "logging_steps": 1,
@@ -4424,7 +6623,7 @@
4424
  "attributes": {}
4425
  }
4426
  },
4427
- "total_flos": 2.738333182674862e+17,
4428
  "train_batch_size": 2,
4429
  "trial_name": null,
4430
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.750599520383693,
5
  "eval_steps": 313,
6
+ "global_step": 939,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
4405
  "eval_samples_per_second": 13.066,
4406
  "eval_steps_per_second": 6.545,
4407
  "step": 626
4408
+ },
4409
+ {
4410
+ "epoch": 0.5011990407673861,
4411
+ "grad_norm": 0.4395071268081665,
4412
+ "learning_rate": 0.00010088601373262486,
4413
+ "loss": 0.9102,
4414
+ "step": 627
4415
+ },
4416
+ {
4417
+ "epoch": 0.5019984012789768,
4418
+ "grad_norm": 0.4352056384086609,
4419
+ "learning_rate": 0.00010063287100762985,
4420
+ "loss": 1.109,
4421
+ "step": 628
4422
+ },
4423
+ {
4424
+ "epoch": 0.5027977617905676,
4425
+ "grad_norm": 0.46828141808509827,
4426
+ "learning_rate": 0.00010037972422688511,
4427
+ "loss": 1.0963,
4428
+ "step": 629
4429
+ },
4430
+ {
4431
+ "epoch": 0.5035971223021583,
4432
+ "grad_norm": 0.45365041494369507,
4433
+ "learning_rate": 0.0001001265750126801,
4434
+ "loss": 0.9817,
4435
+ "step": 630
4436
+ },
4437
+ {
4438
+ "epoch": 0.504396482813749,
4439
+ "grad_norm": 0.5557889342308044,
4440
+ "learning_rate": 9.987342498731992e-05,
4441
+ "loss": 1.0607,
4442
+ "step": 631
4443
+ },
4444
+ {
4445
+ "epoch": 0.5051958433253397,
4446
+ "grad_norm": 0.4783964157104492,
4447
+ "learning_rate": 9.962027577311491e-05,
4448
+ "loss": 1.0659,
4449
+ "step": 632
4450
+ },
4451
+ {
4452
+ "epoch": 0.5059952038369304,
4453
+ "grad_norm": 0.5517037510871887,
4454
+ "learning_rate": 9.936712899237017e-05,
4455
+ "loss": 1.0411,
4456
+ "step": 633
4457
+ },
4458
+ {
4459
+ "epoch": 0.5067945643485212,
4460
+ "grad_norm": 0.5102303624153137,
4461
+ "learning_rate": 9.911398626737517e-05,
4462
+ "loss": 0.7951,
4463
+ "step": 634
4464
+ },
4465
+ {
4466
+ "epoch": 0.5075939248601119,
4467
+ "grad_norm": 0.547484278678894,
4468
+ "learning_rate": 9.886084922039344e-05,
4469
+ "loss": 0.9594,
4470
+ "step": 635
4471
+ },
4472
+ {
4473
+ "epoch": 0.5083932853717026,
4474
+ "grad_norm": 0.719420850276947,
4475
+ "learning_rate": 9.860771947365214e-05,
4476
+ "loss": 1.0052,
4477
+ "step": 636
4478
+ },
4479
+ {
4480
+ "epoch": 0.5091926458832934,
4481
+ "grad_norm": 0.6604675650596619,
4482
+ "learning_rate": 9.835459864933156e-05,
4483
+ "loss": 1.0055,
4484
+ "step": 637
4485
+ },
4486
+ {
4487
+ "epoch": 0.5099920063948841,
4488
+ "grad_norm": 0.6773166656494141,
4489
+ "learning_rate": 9.810148836955492e-05,
4490
+ "loss": 1.1806,
4491
+ "step": 638
4492
+ },
4493
+ {
4494
+ "epoch": 0.5107913669064749,
4495
+ "grad_norm": 0.877698540687561,
4496
+ "learning_rate": 9.784839025637778e-05,
4497
+ "loss": 1.1224,
4498
+ "step": 639
4499
+ },
4500
+ {
4501
+ "epoch": 0.5115907274180655,
4502
+ "grad_norm": 0.7317598462104797,
4503
+ "learning_rate": 9.759530593177777e-05,
4504
+ "loss": 1.0127,
4505
+ "step": 640
4506
+ },
4507
+ {
4508
+ "epoch": 0.5123900879296562,
4509
+ "grad_norm": 0.8157115578651428,
4510
+ "learning_rate": 9.734223701764415e-05,
4511
+ "loss": 1.2444,
4512
+ "step": 641
4513
+ },
4514
+ {
4515
+ "epoch": 0.513189448441247,
4516
+ "grad_norm": 0.9267081022262573,
4517
+ "learning_rate": 9.708918513576743e-05,
4518
+ "loss": 1.1454,
4519
+ "step": 642
4520
+ },
4521
+ {
4522
+ "epoch": 0.5139888089528377,
4523
+ "grad_norm": 0.762115478515625,
4524
+ "learning_rate": 9.683615190782892e-05,
4525
+ "loss": 1.0811,
4526
+ "step": 643
4527
+ },
4528
+ {
4529
+ "epoch": 0.5147881694644284,
4530
+ "grad_norm": 0.9379759430885315,
4531
+ "learning_rate": 9.658313895539045e-05,
4532
+ "loss": 1.0864,
4533
+ "step": 644
4534
+ },
4535
+ {
4536
+ "epoch": 0.5155875299760192,
4537
+ "grad_norm": 1.0492953062057495,
4538
+ "learning_rate": 9.63301478998839e-05,
4539
+ "loss": 1.1515,
4540
+ "step": 645
4541
+ },
4542
+ {
4543
+ "epoch": 0.5163868904876099,
4544
+ "grad_norm": 1.03159499168396,
4545
+ "learning_rate": 9.607718036260083e-05,
4546
+ "loss": 1.2317,
4547
+ "step": 646
4548
+ },
4549
+ {
4550
+ "epoch": 0.5171862509992007,
4551
+ "grad_norm": 1.086949348449707,
4552
+ "learning_rate": 9.582423796468201e-05,
4553
+ "loss": 1.1982,
4554
+ "step": 647
4555
+ },
4556
+ {
4557
+ "epoch": 0.5179856115107914,
4558
+ "grad_norm": 1.140920877456665,
4559
+ "learning_rate": 9.557132232710724e-05,
4560
+ "loss": 1.0614,
4561
+ "step": 648
4562
+ },
4563
+ {
4564
+ "epoch": 0.518784972022382,
4565
+ "grad_norm": 1.3680213689804077,
4566
+ "learning_rate": 9.531843507068465e-05,
4567
+ "loss": 1.3409,
4568
+ "step": 649
4569
+ },
4570
+ {
4571
+ "epoch": 0.5195843325339728,
4572
+ "grad_norm": 1.9634144306182861,
4573
+ "learning_rate": 9.506557781604066e-05,
4574
+ "loss": 1.0384,
4575
+ "step": 650
4576
+ },
4577
+ {
4578
+ "epoch": 0.5203836930455635,
4579
+ "grad_norm": 0.35742971301078796,
4580
+ "learning_rate": 9.481275218360932e-05,
4581
+ "loss": 0.9856,
4582
+ "step": 651
4583
+ },
4584
+ {
4585
+ "epoch": 0.5211830535571543,
4586
+ "grad_norm": 0.39657095074653625,
4587
+ "learning_rate": 9.455995979362206e-05,
4588
+ "loss": 0.9763,
4589
+ "step": 652
4590
+ },
4591
+ {
4592
+ "epoch": 0.521982414068745,
4593
+ "grad_norm": 0.3931129276752472,
4594
+ "learning_rate": 9.43072022660973e-05,
4595
+ "loss": 0.9867,
4596
+ "step": 653
4597
+ },
4598
+ {
4599
+ "epoch": 0.5227817745803357,
4600
+ "grad_norm": 0.35188305377960205,
4601
+ "learning_rate": 9.405448122083002e-05,
4602
+ "loss": 1.0704,
4603
+ "step": 654
4604
+ },
4605
+ {
4606
+ "epoch": 0.5235811350919265,
4607
+ "grad_norm": 0.35903307795524597,
4608
+ "learning_rate": 9.380179827738136e-05,
4609
+ "loss": 1.144,
4610
+ "step": 655
4611
+ },
4612
+ {
4613
+ "epoch": 0.5243804956035172,
4614
+ "grad_norm": 0.36907997727394104,
4615
+ "learning_rate": 9.354915505506839e-05,
4616
+ "loss": 1.0573,
4617
+ "step": 656
4618
+ },
4619
+ {
4620
+ "epoch": 0.5251798561151079,
4621
+ "grad_norm": 0.3568347096443176,
4622
+ "learning_rate": 9.329655317295354e-05,
4623
+ "loss": 0.8698,
4624
+ "step": 657
4625
+ },
4626
+ {
4627
+ "epoch": 0.5259792166266987,
4628
+ "grad_norm": 0.368610143661499,
4629
+ "learning_rate": 9.304399424983432e-05,
4630
+ "loss": 1.0712,
4631
+ "step": 658
4632
+ },
4633
+ {
4634
+ "epoch": 0.5267785771382894,
4635
+ "grad_norm": 0.4084762930870056,
4636
+ "learning_rate": 9.279147990423296e-05,
4637
+ "loss": 1.1245,
4638
+ "step": 659
4639
+ },
4640
+ {
4641
+ "epoch": 0.5275779376498801,
4642
+ "grad_norm": 0.35369983315467834,
4643
+ "learning_rate": 9.253901175438607e-05,
4644
+ "loss": 1.0057,
4645
+ "step": 660
4646
+ },
4647
+ {
4648
+ "epoch": 0.5283772981614708,
4649
+ "grad_norm": 0.38250893354415894,
4650
+ "learning_rate": 9.228659141823406e-05,
4651
+ "loss": 1.1446,
4652
+ "step": 661
4653
+ },
4654
+ {
4655
+ "epoch": 0.5291766586730615,
4656
+ "grad_norm": 0.3296395540237427,
4657
+ "learning_rate": 9.203422051341109e-05,
4658
+ "loss": 1.1662,
4659
+ "step": 662
4660
+ },
4661
+ {
4662
+ "epoch": 0.5299760191846523,
4663
+ "grad_norm": 0.31364706158638,
4664
+ "learning_rate": 9.178190065723447e-05,
4665
+ "loss": 1.0356,
4666
+ "step": 663
4667
+ },
4668
+ {
4669
+ "epoch": 0.530775379696243,
4670
+ "grad_norm": 0.3382437527179718,
4671
+ "learning_rate": 9.152963346669433e-05,
4672
+ "loss": 1.1452,
4673
+ "step": 664
4674
+ },
4675
+ {
4676
+ "epoch": 0.5315747402078337,
4677
+ "grad_norm": 0.3270893692970276,
4678
+ "learning_rate": 9.127742055844334e-05,
4679
+ "loss": 0.9644,
4680
+ "step": 665
4681
+ },
4682
+ {
4683
+ "epoch": 0.5323741007194245,
4684
+ "grad_norm": 0.38368576765060425,
4685
+ "learning_rate": 9.102526354878631e-05,
4686
+ "loss": 1.0437,
4687
+ "step": 666
4688
+ },
4689
+ {
4690
+ "epoch": 0.5331734612310152,
4691
+ "grad_norm": 0.4607539772987366,
4692
+ "learning_rate": 9.077316405366981e-05,
4693
+ "loss": 1.1424,
4694
+ "step": 667
4695
+ },
4696
+ {
4697
+ "epoch": 0.533972821742606,
4698
+ "grad_norm": 0.3516378700733185,
4699
+ "learning_rate": 9.052112368867181e-05,
4700
+ "loss": 0.9903,
4701
+ "step": 668
4702
+ },
4703
+ {
4704
+ "epoch": 0.5347721822541966,
4705
+ "grad_norm": 0.4142468571662903,
4706
+ "learning_rate": 9.026914406899134e-05,
4707
+ "loss": 1.0158,
4708
+ "step": 669
4709
+ },
4710
+ {
4711
+ "epoch": 0.5355715427657873,
4712
+ "grad_norm": 0.5051367282867432,
4713
+ "learning_rate": 9.00172268094382e-05,
4714
+ "loss": 1.0143,
4715
+ "step": 670
4716
+ },
4717
+ {
4718
+ "epoch": 0.5363709032773781,
4719
+ "grad_norm": 0.39056387543678284,
4720
+ "learning_rate": 8.97653735244225e-05,
4721
+ "loss": 1.1368,
4722
+ "step": 671
4723
+ },
4724
+ {
4725
+ "epoch": 0.5371702637889688,
4726
+ "grad_norm": 0.4168921411037445,
4727
+ "learning_rate": 8.951358582794438e-05,
4728
+ "loss": 1.1265,
4729
+ "step": 672
4730
+ },
4731
+ {
4732
+ "epoch": 0.5379696243005595,
4733
+ "grad_norm": 0.43402183055877686,
4734
+ "learning_rate": 8.92618653335837e-05,
4735
+ "loss": 1.1295,
4736
+ "step": 673
4737
+ },
4738
+ {
4739
+ "epoch": 0.5387689848121503,
4740
+ "grad_norm": 0.43355968594551086,
4741
+ "learning_rate": 8.901021365448958e-05,
4742
+ "loss": 1.0647,
4743
+ "step": 674
4744
+ },
4745
+ {
4746
+ "epoch": 0.539568345323741,
4747
+ "grad_norm": 0.4178990125656128,
4748
+ "learning_rate": 8.87586324033702e-05,
4749
+ "loss": 1.0942,
4750
+ "step": 675
4751
+ },
4752
+ {
4753
+ "epoch": 0.5403677058353318,
4754
+ "grad_norm": 0.4249877333641052,
4755
+ "learning_rate": 8.850712319248236e-05,
4756
+ "loss": 0.9605,
4757
+ "step": 676
4758
+ },
4759
+ {
4760
+ "epoch": 0.5411670663469225,
4761
+ "grad_norm": 0.46403768658638,
4762
+ "learning_rate": 8.825568763362127e-05,
4763
+ "loss": 1.1758,
4764
+ "step": 677
4765
+ },
4766
+ {
4767
+ "epoch": 0.5419664268585132,
4768
+ "grad_norm": 0.5160415768623352,
4769
+ "learning_rate": 8.800432733811001e-05,
4770
+ "loss": 1.2294,
4771
+ "step": 678
4772
+ },
4773
+ {
4774
+ "epoch": 0.542765787370104,
4775
+ "grad_norm": 0.3881043791770935,
4776
+ "learning_rate": 8.775304391678942e-05,
4777
+ "loss": 1.078,
4778
+ "step": 679
4779
+ },
4780
+ {
4781
+ "epoch": 0.5435651478816946,
4782
+ "grad_norm": 0.5268367528915405,
4783
+ "learning_rate": 8.750183898000774e-05,
4784
+ "loss": 0.92,
4785
+ "step": 680
4786
+ },
4787
+ {
4788
+ "epoch": 0.5443645083932853,
4789
+ "grad_norm": 0.45545732975006104,
4790
+ "learning_rate": 8.725071413761012e-05,
4791
+ "loss": 0.9236,
4792
+ "step": 681
4793
+ },
4794
+ {
4795
+ "epoch": 0.5451638689048761,
4796
+ "grad_norm": 0.5602855682373047,
4797
+ "learning_rate": 8.699967099892852e-05,
4798
+ "loss": 1.2108,
4799
+ "step": 682
4800
+ },
4801
+ {
4802
+ "epoch": 0.5459632294164668,
4803
+ "grad_norm": 0.5163658261299133,
4804
+ "learning_rate": 8.67487111727713e-05,
4805
+ "loss": 0.9604,
4806
+ "step": 683
4807
+ },
4808
+ {
4809
+ "epoch": 0.5467625899280576,
4810
+ "grad_norm": 0.5549715757369995,
4811
+ "learning_rate": 8.64978362674128e-05,
4812
+ "loss": 0.9453,
4813
+ "step": 684
4814
+ },
4815
+ {
4816
+ "epoch": 0.5475619504396483,
4817
+ "grad_norm": 0.5914304256439209,
4818
+ "learning_rate": 8.624704789058331e-05,
4819
+ "loss": 0.9931,
4820
+ "step": 685
4821
+ },
4822
+ {
4823
+ "epoch": 0.548361310951239,
4824
+ "grad_norm": 0.6247863173484802,
4825
+ "learning_rate": 8.599634764945845e-05,
4826
+ "loss": 1.0431,
4827
+ "step": 686
4828
+ },
4829
+ {
4830
+ "epoch": 0.5491606714628298,
4831
+ "grad_norm": 0.7612833380699158,
4832
+ "learning_rate": 8.574573715064913e-05,
4833
+ "loss": 0.9153,
4834
+ "step": 687
4835
+ },
4836
+ {
4837
+ "epoch": 0.5499600319744204,
4838
+ "grad_norm": 0.6234817504882812,
4839
+ "learning_rate": 8.549521800019113e-05,
4840
+ "loss": 1.0812,
4841
+ "step": 688
4842
+ },
4843
+ {
4844
+ "epoch": 0.5507593924860112,
4845
+ "grad_norm": 0.6706773638725281,
4846
+ "learning_rate": 8.524479180353478e-05,
4847
+ "loss": 0.8517,
4848
+ "step": 689
4849
+ },
4850
+ {
4851
+ "epoch": 0.5515587529976019,
4852
+ "grad_norm": 0.761870801448822,
4853
+ "learning_rate": 8.499446016553474e-05,
4854
+ "loss": 1.1793,
4855
+ "step": 690
4856
+ },
4857
+ {
4858
+ "epoch": 0.5523581135091926,
4859
+ "grad_norm": 0.7513264417648315,
4860
+ "learning_rate": 8.474422469043973e-05,
4861
+ "loss": 1.3344,
4862
+ "step": 691
4863
+ },
4864
+ {
4865
+ "epoch": 0.5531574740207834,
4866
+ "grad_norm": 0.7695756554603577,
4867
+ "learning_rate": 8.449408698188213e-05,
4868
+ "loss": 0.9859,
4869
+ "step": 692
4870
+ },
4871
+ {
4872
+ "epoch": 0.5539568345323741,
4873
+ "grad_norm": 0.8410113453865051,
4874
+ "learning_rate": 8.424404864286784e-05,
4875
+ "loss": 0.9965,
4876
+ "step": 693
4877
+ },
4878
+ {
4879
+ "epoch": 0.5547561950439648,
4880
+ "grad_norm": 0.9044365286827087,
4881
+ "learning_rate": 8.399411127576597e-05,
4882
+ "loss": 1.0025,
4883
+ "step": 694
4884
+ },
4885
+ {
4886
+ "epoch": 0.5555555555555556,
4887
+ "grad_norm": 0.9618779420852661,
4888
+ "learning_rate": 8.374427648229846e-05,
4889
+ "loss": 1.1298,
4890
+ "step": 695
4891
+ },
4892
+ {
4893
+ "epoch": 0.5563549160671463,
4894
+ "grad_norm": 1.178658127784729,
4895
+ "learning_rate": 8.349454586353e-05,
4896
+ "loss": 1.0035,
4897
+ "step": 696
4898
+ },
4899
+ {
4900
+ "epoch": 0.5571542765787371,
4901
+ "grad_norm": 1.1606285572052002,
4902
+ "learning_rate": 8.324492101985768e-05,
4903
+ "loss": 1.1512,
4904
+ "step": 697
4905
+ },
4906
+ {
4907
+ "epoch": 0.5579536370903277,
4908
+ "grad_norm": 1.2002030611038208,
4909
+ "learning_rate": 8.299540355100065e-05,
4910
+ "loss": 1.2104,
4911
+ "step": 698
4912
+ },
4913
+ {
4914
+ "epoch": 0.5587529976019184,
4915
+ "grad_norm": 1.7446719408035278,
4916
+ "learning_rate": 8.274599505599e-05,
4917
+ "loss": 1.4774,
4918
+ "step": 699
4919
+ },
4920
+ {
4921
+ "epoch": 0.5595523581135092,
4922
+ "grad_norm": 1.540687084197998,
4923
+ "learning_rate": 8.249669713315848e-05,
4924
+ "loss": 1.1088,
4925
+ "step": 700
4926
+ },
4927
+ {
4928
+ "epoch": 0.5603517186250999,
4929
+ "grad_norm": 0.32139134407043457,
4930
+ "learning_rate": 8.224751138013023e-05,
4931
+ "loss": 0.8488,
4932
+ "step": 701
4933
+ },
4934
+ {
4935
+ "epoch": 0.5611510791366906,
4936
+ "grad_norm": 0.3686629831790924,
4937
+ "learning_rate": 8.199843939381049e-05,
4938
+ "loss": 1.0761,
4939
+ "step": 702
4940
+ },
4941
+ {
4942
+ "epoch": 0.5619504396482814,
4943
+ "grad_norm": 0.4355558454990387,
4944
+ "learning_rate": 8.174948277037548e-05,
4945
+ "loss": 1.1466,
4946
+ "step": 703
4947
+ },
4948
+ {
4949
+ "epoch": 0.5627498001598721,
4950
+ "grad_norm": 0.3635938763618469,
4951
+ "learning_rate": 8.150064310526217e-05,
4952
+ "loss": 1.0464,
4953
+ "step": 704
4954
+ },
4955
+ {
4956
+ "epoch": 0.5635491606714629,
4957
+ "grad_norm": 0.34856486320495605,
4958
+ "learning_rate": 8.125192199315787e-05,
4959
+ "loss": 0.9698,
4960
+ "step": 705
4961
+ },
4962
+ {
4963
+ "epoch": 0.5643485211830536,
4964
+ "grad_norm": 0.39139944314956665,
4965
+ "learning_rate": 8.100332102799025e-05,
4966
+ "loss": 1.081,
4967
+ "step": 706
4968
+ },
4969
+ {
4970
+ "epoch": 0.5651478816946442,
4971
+ "grad_norm": 0.4321231544017792,
4972
+ "learning_rate": 8.075484180291701e-05,
4973
+ "loss": 1.0198,
4974
+ "step": 707
4975
+ },
4976
+ {
4977
+ "epoch": 0.565947242206235,
4978
+ "grad_norm": 0.3629261255264282,
4979
+ "learning_rate": 8.050648591031562e-05,
4980
+ "loss": 1.0162,
4981
+ "step": 708
4982
+ },
4983
+ {
4984
+ "epoch": 0.5667466027178257,
4985
+ "grad_norm": 0.39623329043388367,
4986
+ "learning_rate": 8.025825494177323e-05,
4987
+ "loss": 1.0521,
4988
+ "step": 709
4989
+ },
4990
+ {
4991
+ "epoch": 0.5675459632294164,
4992
+ "grad_norm": 0.39008572697639465,
4993
+ "learning_rate": 8.00101504880764e-05,
4994
+ "loss": 1.2911,
4995
+ "step": 710
4996
+ },
4997
+ {
4998
+ "epoch": 0.5683453237410072,
4999
+ "grad_norm": 0.3346228003501892,
5000
+ "learning_rate": 7.976217413920093e-05,
5001
+ "loss": 1.0933,
5002
+ "step": 711
5003
+ },
5004
+ {
5005
+ "epoch": 0.5691446842525979,
5006
+ "grad_norm": 0.34785088896751404,
5007
+ "learning_rate": 7.95143274843016e-05,
5008
+ "loss": 1.1413,
5009
+ "step": 712
5010
+ },
5011
+ {
5012
+ "epoch": 0.5699440447641887,
5013
+ "grad_norm": 0.313931405544281,
5014
+ "learning_rate": 7.926661211170213e-05,
5015
+ "loss": 1.1282,
5016
+ "step": 713
5017
+ },
5018
+ {
5019
+ "epoch": 0.5707434052757794,
5020
+ "grad_norm": 0.39661192893981934,
5021
+ "learning_rate": 7.901902960888491e-05,
5022
+ "loss": 1.241,
5023
+ "step": 714
5024
+ },
5025
+ {
5026
+ "epoch": 0.5715427657873701,
5027
+ "grad_norm": 0.38687777519226074,
5028
+ "learning_rate": 7.877158156248074e-05,
5029
+ "loss": 1.2047,
5030
+ "step": 715
5031
+ },
5032
+ {
5033
+ "epoch": 0.5723421262989609,
5034
+ "grad_norm": 0.33725664019584656,
5035
+ "learning_rate": 7.852426955825887e-05,
5036
+ "loss": 1.0205,
5037
+ "step": 716
5038
+ },
5039
+ {
5040
+ "epoch": 0.5731414868105515,
5041
+ "grad_norm": 0.3965463936328888,
5042
+ "learning_rate": 7.827709518111673e-05,
5043
+ "loss": 1.017,
5044
+ "step": 717
5045
+ },
5046
+ {
5047
+ "epoch": 0.5739408473221422,
5048
+ "grad_norm": 0.5649027228355408,
5049
+ "learning_rate": 7.803006001506961e-05,
5050
+ "loss": 1.2147,
5051
+ "step": 718
5052
+ },
5053
+ {
5054
+ "epoch": 0.574740207833733,
5055
+ "grad_norm": 0.35998645424842834,
5056
+ "learning_rate": 7.778316564324085e-05,
5057
+ "loss": 1.0301,
5058
+ "step": 719
5059
+ },
5060
+ {
5061
+ "epoch": 0.5755395683453237,
5062
+ "grad_norm": 0.4070900082588196,
5063
+ "learning_rate": 7.753641364785138e-05,
5064
+ "loss": 1.1825,
5065
+ "step": 720
5066
+ },
5067
+ {
5068
+ "epoch": 0.5763389288569145,
5069
+ "grad_norm": 0.4043642580509186,
5070
+ "learning_rate": 7.728980561020979e-05,
5071
+ "loss": 1.2504,
5072
+ "step": 721
5073
+ },
5074
+ {
5075
+ "epoch": 0.5771382893685052,
5076
+ "grad_norm": 0.4256274402141571,
5077
+ "learning_rate": 7.704334311070215e-05,
5078
+ "loss": 1.0733,
5079
+ "step": 722
5080
+ },
5081
+ {
5082
+ "epoch": 0.5779376498800959,
5083
+ "grad_norm": 0.38983389735221863,
5084
+ "learning_rate": 7.679702772878172e-05,
5085
+ "loss": 0.9375,
5086
+ "step": 723
5087
+ },
5088
+ {
5089
+ "epoch": 0.5787370103916867,
5090
+ "grad_norm": 0.449326753616333,
5091
+ "learning_rate": 7.655086104295904e-05,
5092
+ "loss": 1.1876,
5093
+ "step": 724
5094
+ },
5095
+ {
5096
+ "epoch": 0.5795363709032774,
5097
+ "grad_norm": 0.42246901988983154,
5098
+ "learning_rate": 7.630484463079177e-05,
5099
+ "loss": 1.0497,
5100
+ "step": 725
5101
+ },
5102
+ {
5103
+ "epoch": 0.580335731414868,
5104
+ "grad_norm": 0.3945838510990143,
5105
+ "learning_rate": 7.605898006887447e-05,
5106
+ "loss": 1.0072,
5107
+ "step": 726
5108
+ },
5109
+ {
5110
+ "epoch": 0.5811350919264588,
5111
+ "grad_norm": 0.4597523510456085,
5112
+ "learning_rate": 7.581326893282858e-05,
5113
+ "loss": 1.034,
5114
+ "step": 727
5115
+ },
5116
+ {
5117
+ "epoch": 0.5819344524380495,
5118
+ "grad_norm": 0.4484693706035614,
5119
+ "learning_rate": 7.556771279729236e-05,
5120
+ "loss": 1.025,
5121
+ "step": 728
5122
+ },
5123
+ {
5124
+ "epoch": 0.5827338129496403,
5125
+ "grad_norm": 0.47144320607185364,
5126
+ "learning_rate": 7.532231323591067e-05,
5127
+ "loss": 1.0669,
5128
+ "step": 729
5129
+ },
5130
+ {
5131
+ "epoch": 0.583533173461231,
5132
+ "grad_norm": 0.44177764654159546,
5133
+ "learning_rate": 7.507707182132506e-05,
5134
+ "loss": 1.0858,
5135
+ "step": 730
5136
+ },
5137
+ {
5138
+ "epoch": 0.5843325339728217,
5139
+ "grad_norm": 0.5104259848594666,
5140
+ "learning_rate": 7.483199012516353e-05,
5141
+ "loss": 1.2095,
5142
+ "step": 731
5143
+ },
5144
+ {
5145
+ "epoch": 0.5851318944844125,
5146
+ "grad_norm": 0.548528254032135,
5147
+ "learning_rate": 7.458706971803055e-05,
5148
+ "loss": 0.9455,
5149
+ "step": 732
5150
+ },
5151
+ {
5152
+ "epoch": 0.5859312549960032,
5153
+ "grad_norm": 0.5504273176193237,
5154
+ "learning_rate": 7.434231216949696e-05,
5155
+ "loss": 0.8916,
5156
+ "step": 733
5157
+ },
5158
+ {
5159
+ "epoch": 0.586730615507594,
5160
+ "grad_norm": 0.6220442652702332,
5161
+ "learning_rate": 7.409771904808993e-05,
5162
+ "loss": 1.0541,
5163
+ "step": 734
5164
+ },
5165
+ {
5166
+ "epoch": 0.5875299760191847,
5167
+ "grad_norm": 0.8554894924163818,
5168
+ "learning_rate": 7.38532919212829e-05,
5169
+ "loss": 1.0596,
5170
+ "step": 735
5171
+ },
5172
+ {
5173
+ "epoch": 0.5883293365307753,
5174
+ "grad_norm": 0.6036530137062073,
5175
+ "learning_rate": 7.360903235548553e-05,
5176
+ "loss": 1.0417,
5177
+ "step": 736
5178
+ },
5179
+ {
5180
+ "epoch": 0.5891286970423661,
5181
+ "grad_norm": 0.5838643312454224,
5182
+ "learning_rate": 7.336494191603364e-05,
5183
+ "loss": 0.9401,
5184
+ "step": 737
5185
+ },
5186
+ {
5187
+ "epoch": 0.5899280575539568,
5188
+ "grad_norm": 0.7749225497245789,
5189
+ "learning_rate": 7.312102216717929e-05,
5190
+ "loss": 1.0759,
5191
+ "step": 738
5192
+ },
5193
+ {
5194
+ "epoch": 0.5907274180655475,
5195
+ "grad_norm": 0.7013788223266602,
5196
+ "learning_rate": 7.287727467208056e-05,
5197
+ "loss": 0.9142,
5198
+ "step": 739
5199
+ },
5200
+ {
5201
+ "epoch": 0.5915267785771383,
5202
+ "grad_norm": 0.7764909863471985,
5203
+ "learning_rate": 7.263370099279172e-05,
5204
+ "loss": 1.1373,
5205
+ "step": 740
5206
+ },
5207
+ {
5208
+ "epoch": 0.592326139088729,
5209
+ "grad_norm": 0.6547873616218567,
5210
+ "learning_rate": 7.239030269025311e-05,
5211
+ "loss": 1.1794,
5212
+ "step": 741
5213
+ },
5214
+ {
5215
+ "epoch": 0.5931254996003198,
5216
+ "grad_norm": 0.7785171866416931,
5217
+ "learning_rate": 7.214708132428121e-05,
5218
+ "loss": 1.0173,
5219
+ "step": 742
5220
+ },
5221
+ {
5222
+ "epoch": 0.5939248601119105,
5223
+ "grad_norm": 0.96076500415802,
5224
+ "learning_rate": 7.190403845355853e-05,
5225
+ "loss": 1.2693,
5226
+ "step": 743
5227
+ },
5228
+ {
5229
+ "epoch": 0.5947242206235012,
5230
+ "grad_norm": 0.8062298893928528,
5231
+ "learning_rate": 7.166117563562375e-05,
5232
+ "loss": 1.1167,
5233
+ "step": 744
5234
+ },
5235
+ {
5236
+ "epoch": 0.595523581135092,
5237
+ "grad_norm": 1.0789361000061035,
5238
+ "learning_rate": 7.141849442686168e-05,
5239
+ "loss": 1.3157,
5240
+ "step": 745
5241
+ },
5242
+ {
5243
+ "epoch": 0.5963229416466826,
5244
+ "grad_norm": 0.9564920663833618,
5245
+ "learning_rate": 7.117599638249326e-05,
5246
+ "loss": 1.0115,
5247
+ "step": 746
5248
+ },
5249
+ {
5250
+ "epoch": 0.5971223021582733,
5251
+ "grad_norm": 1.0859782695770264,
5252
+ "learning_rate": 7.093368305656563e-05,
5253
+ "loss": 1.1539,
5254
+ "step": 747
5255
+ },
5256
+ {
5257
+ "epoch": 0.5979216626698641,
5258
+ "grad_norm": 1.1587315797805786,
5259
+ "learning_rate": 7.069155600194223e-05,
5260
+ "loss": 1.2031,
5261
+ "step": 748
5262
+ },
5263
+ {
5264
+ "epoch": 0.5987210231814548,
5265
+ "grad_norm": 1.4126029014587402,
5266
+ "learning_rate": 7.044961677029265e-05,
5267
+ "loss": 1.0768,
5268
+ "step": 749
5269
+ },
5270
+ {
5271
+ "epoch": 0.5995203836930456,
5272
+ "grad_norm": 1.9330767393112183,
5273
+ "learning_rate": 7.020786691208292e-05,
5274
+ "loss": 1.2553,
5275
+ "step": 750
5276
+ },
5277
+ {
5278
+ "epoch": 0.6003197442046363,
5279
+ "grad_norm": 0.33225733041763306,
5280
+ "learning_rate": 6.996630797656547e-05,
5281
+ "loss": 1.0322,
5282
+ "step": 751
5283
+ },
5284
+ {
5285
+ "epoch": 0.601119104716227,
5286
+ "grad_norm": 0.33560457825660706,
5287
+ "learning_rate": 6.972494151176915e-05,
5288
+ "loss": 1.2175,
5289
+ "step": 752
5290
+ },
5291
+ {
5292
+ "epoch": 0.6019184652278178,
5293
+ "grad_norm": 0.34604617953300476,
5294
+ "learning_rate": 6.948376906448942e-05,
5295
+ "loss": 1.0292,
5296
+ "step": 753
5297
+ },
5298
+ {
5299
+ "epoch": 0.6027178257394085,
5300
+ "grad_norm": 0.3931783139705658,
5301
+ "learning_rate": 6.924279218027828e-05,
5302
+ "loss": 1.1754,
5303
+ "step": 754
5304
+ },
5305
+ {
5306
+ "epoch": 0.6035171862509991,
5307
+ "grad_norm": 0.3545131981372833,
5308
+ "learning_rate": 6.900201240343458e-05,
5309
+ "loss": 1.0322,
5310
+ "step": 755
5311
+ },
5312
+ {
5313
+ "epoch": 0.60431654676259,
5314
+ "grad_norm": 0.3037162721157074,
5315
+ "learning_rate": 6.876143127699398e-05,
5316
+ "loss": 0.9488,
5317
+ "step": 756
5318
+ },
5319
+ {
5320
+ "epoch": 0.6051159072741806,
5321
+ "grad_norm": 0.41264012455940247,
5322
+ "learning_rate": 6.852105034271902e-05,
5323
+ "loss": 1.0289,
5324
+ "step": 757
5325
+ },
5326
+ {
5327
+ "epoch": 0.6059152677857714,
5328
+ "grad_norm": 0.4278363287448883,
5329
+ "learning_rate": 6.82808711410894e-05,
5330
+ "loss": 1.1346,
5331
+ "step": 758
5332
+ },
5333
+ {
5334
+ "epoch": 0.6067146282973621,
5335
+ "grad_norm": 0.3742501437664032,
5336
+ "learning_rate": 6.804089521129202e-05,
5337
+ "loss": 1.0822,
5338
+ "step": 759
5339
+ },
5340
+ {
5341
+ "epoch": 0.6075139888089528,
5342
+ "grad_norm": 0.3738841414451599,
5343
+ "learning_rate": 6.780112409121099e-05,
5344
+ "loss": 1.1363,
5345
+ "step": 760
5346
+ },
5347
+ {
5348
+ "epoch": 0.6083133493205436,
5349
+ "grad_norm": 0.32057246565818787,
5350
+ "learning_rate": 6.756155931741802e-05,
5351
+ "loss": 1.1435,
5352
+ "step": 761
5353
+ },
5354
+ {
5355
+ "epoch": 0.6091127098321343,
5356
+ "grad_norm": 0.3369678556919098,
5357
+ "learning_rate": 6.732220242516242e-05,
5358
+ "loss": 1.0887,
5359
+ "step": 762
5360
+ },
5361
+ {
5362
+ "epoch": 0.609912070343725,
5363
+ "grad_norm": 0.34893402457237244,
5364
+ "learning_rate": 6.708305494836131e-05,
5365
+ "loss": 1.1949,
5366
+ "step": 763
5367
+ },
5368
+ {
5369
+ "epoch": 0.6107114308553158,
5370
+ "grad_norm": 0.36019623279571533,
5371
+ "learning_rate": 6.68441184195897e-05,
5372
+ "loss": 1.1954,
5373
+ "step": 764
5374
+ },
5375
+ {
5376
+ "epoch": 0.6115107913669064,
5377
+ "grad_norm": 0.3615095913410187,
5378
+ "learning_rate": 6.660539437007081e-05,
5379
+ "loss": 1.1763,
5380
+ "step": 765
5381
+ },
5382
+ {
5383
+ "epoch": 0.6123101518784972,
5384
+ "grad_norm": 0.40820664167404175,
5385
+ "learning_rate": 6.636688432966618e-05,
5386
+ "loss": 1.0974,
5387
+ "step": 766
5388
+ },
5389
+ {
5390
+ "epoch": 0.6131095123900879,
5391
+ "grad_norm": 0.3878170847892761,
5392
+ "learning_rate": 6.612858982686584e-05,
5393
+ "loss": 1.2213,
5394
+ "step": 767
5395
+ },
5396
+ {
5397
+ "epoch": 0.6139088729016786,
5398
+ "grad_norm": 0.4106099009513855,
5399
+ "learning_rate": 6.589051238877858e-05,
5400
+ "loss": 1.0086,
5401
+ "step": 768
5402
+ },
5403
+ {
5404
+ "epoch": 0.6147082334132694,
5405
+ "grad_norm": 0.37214210629463196,
5406
+ "learning_rate": 6.565265354112214e-05,
5407
+ "loss": 0.9487,
5408
+ "step": 769
5409
+ },
5410
+ {
5411
+ "epoch": 0.6155075939248601,
5412
+ "grad_norm": 0.41581258177757263,
5413
+ "learning_rate": 6.541501480821338e-05,
5414
+ "loss": 0.9857,
5415
+ "step": 770
5416
+ },
5417
+ {
5418
+ "epoch": 0.6163069544364509,
5419
+ "grad_norm": 0.3811487853527069,
5420
+ "learning_rate": 6.51775977129586e-05,
5421
+ "loss": 1.0552,
5422
+ "step": 771
5423
+ },
5424
+ {
5425
+ "epoch": 0.6171063149480416,
5426
+ "grad_norm": 0.4689180552959442,
5427
+ "learning_rate": 6.494040377684372e-05,
5428
+ "loss": 1.0779,
5429
+ "step": 772
5430
+ },
5431
+ {
5432
+ "epoch": 0.6179056754596323,
5433
+ "grad_norm": 0.3837207853794098,
5434
+ "learning_rate": 6.470343451992452e-05,
5435
+ "loss": 1.0286,
5436
+ "step": 773
5437
+ },
5438
+ {
5439
+ "epoch": 0.6187050359712231,
5440
+ "grad_norm": 0.4035284221172333,
5441
+ "learning_rate": 6.446669146081698e-05,
5442
+ "loss": 1.0707,
5443
+ "step": 774
5444
+ },
5445
+ {
5446
+ "epoch": 0.6195043964828137,
5447
+ "grad_norm": 0.40140479803085327,
5448
+ "learning_rate": 6.423017611668745e-05,
5449
+ "loss": 0.9489,
5450
+ "step": 775
5451
+ },
5452
+ {
5453
+ "epoch": 0.6203037569944044,
5454
+ "grad_norm": 0.39459696412086487,
5455
+ "learning_rate": 6.3993890003243e-05,
5456
+ "loss": 0.9949,
5457
+ "step": 776
5458
+ },
5459
+ {
5460
+ "epoch": 0.6211031175059952,
5461
+ "grad_norm": 0.4292733073234558,
5462
+ "learning_rate": 6.375783463472165e-05,
5463
+ "loss": 1.0554,
5464
+ "step": 777
5465
+ },
5466
+ {
5467
+ "epoch": 0.6219024780175859,
5468
+ "grad_norm": 0.4641924202442169,
5469
+ "learning_rate": 6.352201152388268e-05,
5470
+ "loss": 0.9926,
5471
+ "step": 778
5472
+ },
5473
+ {
5474
+ "epoch": 0.6227018385291767,
5475
+ "grad_norm": 0.527754545211792,
5476
+ "learning_rate": 6.328642218199702e-05,
5477
+ "loss": 0.9438,
5478
+ "step": 779
5479
+ },
5480
+ {
5481
+ "epoch": 0.6235011990407674,
5482
+ "grad_norm": 0.4878404140472412,
5483
+ "learning_rate": 6.30510681188374e-05,
5484
+ "loss": 0.9029,
5485
+ "step": 780
5486
+ },
5487
+ {
5488
+ "epoch": 0.6243005595523581,
5489
+ "grad_norm": 0.5755017995834351,
5490
+ "learning_rate": 6.281595084266883e-05,
5491
+ "loss": 0.971,
5492
+ "step": 781
5493
+ },
5494
+ {
5495
+ "epoch": 0.6250999200639489,
5496
+ "grad_norm": 0.5024919509887695,
5497
+ "learning_rate": 6.258107186023885e-05,
5498
+ "loss": 1.0335,
5499
+ "step": 782
5500
+ },
5501
+ {
5502
+ "epoch": 0.6258992805755396,
5503
+ "grad_norm": 0.5928468108177185,
5504
+ "learning_rate": 6.23464326767679e-05,
5505
+ "loss": 1.0721,
5506
+ "step": 783
5507
+ },
5508
+ {
5509
+ "epoch": 0.6266986410871302,
5510
+ "grad_norm": 0.6729336380958557,
5511
+ "learning_rate": 6.211203479593968e-05,
5512
+ "loss": 0.9853,
5513
+ "step": 784
5514
+ },
5515
+ {
5516
+ "epoch": 0.627498001598721,
5517
+ "grad_norm": 0.6404271721839905,
5518
+ "learning_rate": 6.18778797198915e-05,
5519
+ "loss": 0.9947,
5520
+ "step": 785
5521
+ },
5522
+ {
5523
+ "epoch": 0.6282973621103117,
5524
+ "grad_norm": 0.7536145448684692,
5525
+ "learning_rate": 6.164396894920462e-05,
5526
+ "loss": 1.2851,
5527
+ "step": 786
5528
+ },
5529
+ {
5530
+ "epoch": 0.6290967226219025,
5531
+ "grad_norm": 0.669144332408905,
5532
+ "learning_rate": 6.141030398289473e-05,
5533
+ "loss": 1.1976,
5534
+ "step": 787
5535
+ },
5536
+ {
5537
+ "epoch": 0.6298960831334932,
5538
+ "grad_norm": 0.6938853859901428,
5539
+ "learning_rate": 6.117688631840224e-05,
5540
+ "loss": 1.0081,
5541
+ "step": 788
5542
+ },
5543
+ {
5544
+ "epoch": 0.6306954436450839,
5545
+ "grad_norm": 0.7957220673561096,
5546
+ "learning_rate": 6.0943717451582724e-05,
5547
+ "loss": 1.0587,
5548
+ "step": 789
5549
+ },
5550
+ {
5551
+ "epoch": 0.6314948041566747,
5552
+ "grad_norm": 0.7660002112388611,
5553
+ "learning_rate": 6.071079887669742e-05,
5554
+ "loss": 1.0468,
5555
+ "step": 790
5556
+ },
5557
+ {
5558
+ "epoch": 0.6322941646682654,
5559
+ "grad_norm": 1.0254074335098267,
5560
+ "learning_rate": 6.0478132086403426e-05,
5561
+ "loss": 0.9698,
5562
+ "step": 791
5563
+ },
5564
+ {
5565
+ "epoch": 0.6330935251798561,
5566
+ "grad_norm": 0.902427613735199,
5567
+ "learning_rate": 6.024571857174443e-05,
5568
+ "loss": 1.0807,
5569
+ "step": 792
5570
+ },
5571
+ {
5572
+ "epoch": 0.6338928856914469,
5573
+ "grad_norm": 0.872407078742981,
5574
+ "learning_rate": 6.001355982214092e-05,
5575
+ "loss": 1.0333,
5576
+ "step": 793
5577
+ },
5578
+ {
5579
+ "epoch": 0.6346922462030375,
5580
+ "grad_norm": 0.7746816277503967,
5581
+ "learning_rate": 5.978165732538073e-05,
5582
+ "loss": 1.0817,
5583
+ "step": 794
5584
+ },
5585
+ {
5586
+ "epoch": 0.6354916067146283,
5587
+ "grad_norm": 0.9597741365432739,
5588
+ "learning_rate": 5.95500125676095e-05,
5589
+ "loss": 1.0546,
5590
+ "step": 795
5591
+ },
5592
+ {
5593
+ "epoch": 0.636290967226219,
5594
+ "grad_norm": 0.8365216255187988,
5595
+ "learning_rate": 5.9318627033321204e-05,
5596
+ "loss": 0.9174,
5597
+ "step": 796
5598
+ },
5599
+ {
5600
+ "epoch": 0.6370903277378097,
5601
+ "grad_norm": 1.751240849494934,
5602
+ "learning_rate": 5.9087502205348534e-05,
5603
+ "loss": 1.2519,
5604
+ "step": 797
5605
+ },
5606
+ {
5607
+ "epoch": 0.6378896882494005,
5608
+ "grad_norm": 1.1197962760925293,
5609
+ "learning_rate": 5.885663956485341e-05,
5610
+ "loss": 1.084,
5611
+ "step": 798
5612
+ },
5613
+ {
5614
+ "epoch": 0.6386890487609912,
5615
+ "grad_norm": 1.6539058685302734,
5616
+ "learning_rate": 5.86260405913176e-05,
5617
+ "loss": 1.1596,
5618
+ "step": 799
5619
+ },
5620
+ {
5621
+ "epoch": 0.6394884092725819,
5622
+ "grad_norm": 1.8245570659637451,
5623
+ "learning_rate": 5.839570676253316e-05,
5624
+ "loss": 1.0606,
5625
+ "step": 800
5626
+ },
5627
+ {
5628
+ "epoch": 0.6402877697841727,
5629
+ "grad_norm": 0.3631491959095001,
5630
+ "learning_rate": 5.81656395545929e-05,
5631
+ "loss": 1.0136,
5632
+ "step": 801
5633
+ },
5634
+ {
5635
+ "epoch": 0.6410871302957634,
5636
+ "grad_norm": 0.34658652544021606,
5637
+ "learning_rate": 5.7935840441881054e-05,
5638
+ "loss": 0.9605,
5639
+ "step": 802
5640
+ },
5641
+ {
5642
+ "epoch": 0.6418864908073542,
5643
+ "grad_norm": 0.3638405203819275,
5644
+ "learning_rate": 5.770631089706373e-05,
5645
+ "loss": 0.8942,
5646
+ "step": 803
5647
+ },
5648
+ {
5649
+ "epoch": 0.6426858513189448,
5650
+ "grad_norm": 0.42472997307777405,
5651
+ "learning_rate": 5.747705239107958e-05,
5652
+ "loss": 1.0283,
5653
+ "step": 804
5654
+ },
5655
+ {
5656
+ "epoch": 0.6434852118305355,
5657
+ "grad_norm": 0.4047344923019409,
5658
+ "learning_rate": 5.724806639313025e-05,
5659
+ "loss": 1.0082,
5660
+ "step": 805
5661
+ },
5662
+ {
5663
+ "epoch": 0.6442845723421263,
5664
+ "grad_norm": 0.39204633235931396,
5665
+ "learning_rate": 5.701935437067096e-05,
5666
+ "loss": 1.0789,
5667
+ "step": 806
5668
+ },
5669
+ {
5670
+ "epoch": 0.645083932853717,
5671
+ "grad_norm": 0.35815802216529846,
5672
+ "learning_rate": 5.6790917789401285e-05,
5673
+ "loss": 1.1287,
5674
+ "step": 807
5675
+ },
5676
+ {
5677
+ "epoch": 0.6458832933653078,
5678
+ "grad_norm": 0.34175869822502136,
5679
+ "learning_rate": 5.656275811325557e-05,
5680
+ "loss": 1.0832,
5681
+ "step": 808
5682
+ },
5683
+ {
5684
+ "epoch": 0.6466826538768985,
5685
+ "grad_norm": 0.3721088469028473,
5686
+ "learning_rate": 5.633487680439361e-05,
5687
+ "loss": 1.0313,
5688
+ "step": 809
5689
+ },
5690
+ {
5691
+ "epoch": 0.6474820143884892,
5692
+ "grad_norm": 0.399013489484787,
5693
+ "learning_rate": 5.610727532319131e-05,
5694
+ "loss": 1.0316,
5695
+ "step": 810
5696
+ },
5697
+ {
5698
+ "epoch": 0.64828137490008,
5699
+ "grad_norm": 0.3578621447086334,
5700
+ "learning_rate": 5.587995512823133e-05,
5701
+ "loss": 1.1265,
5702
+ "step": 811
5703
+ },
5704
+ {
5705
+ "epoch": 0.6490807354116707,
5706
+ "grad_norm": 0.3983486294746399,
5707
+ "learning_rate": 5.565291767629359e-05,
5708
+ "loss": 1.0861,
5709
+ "step": 812
5710
+ },
5711
+ {
5712
+ "epoch": 0.6498800959232613,
5713
+ "grad_norm": 0.3946421444416046,
5714
+ "learning_rate": 5.542616442234618e-05,
5715
+ "loss": 1.0956,
5716
+ "step": 813
5717
+ },
5718
+ {
5719
+ "epoch": 0.6506794564348521,
5720
+ "grad_norm": 0.35159727931022644,
5721
+ "learning_rate": 5.5199696819535854e-05,
5722
+ "loss": 1.2644,
5723
+ "step": 814
5724
+ },
5725
+ {
5726
+ "epoch": 0.6514788169464428,
5727
+ "grad_norm": 0.36194556951522827,
5728
+ "learning_rate": 5.4973516319178774e-05,
5729
+ "loss": 1.1822,
5730
+ "step": 815
5731
+ },
5732
+ {
5733
+ "epoch": 0.6522781774580336,
5734
+ "grad_norm": 0.3506593108177185,
5735
+ "learning_rate": 5.474762437075123e-05,
5736
+ "loss": 1.119,
5737
+ "step": 816
5738
+ },
5739
+ {
5740
+ "epoch": 0.6530775379696243,
5741
+ "grad_norm": 0.4893072545528412,
5742
+ "learning_rate": 5.4522022421880295e-05,
5743
+ "loss": 1.0987,
5744
+ "step": 817
5745
+ },
5746
+ {
5747
+ "epoch": 0.653876898481215,
5748
+ "grad_norm": 0.3882545530796051,
5749
+ "learning_rate": 5.4296711918334644e-05,
5750
+ "loss": 1.1101,
5751
+ "step": 818
5752
+ },
5753
+ {
5754
+ "epoch": 0.6546762589928058,
5755
+ "grad_norm": 0.4101043939590454,
5756
+ "learning_rate": 5.407169430401511e-05,
5757
+ "loss": 1.2256,
5758
+ "step": 819
5759
+ },
5760
+ {
5761
+ "epoch": 0.6554756195043965,
5762
+ "grad_norm": 0.4425513744354248,
5763
+ "learning_rate": 5.384697102094565e-05,
5764
+ "loss": 1.1876,
5765
+ "step": 820
5766
+ },
5767
+ {
5768
+ "epoch": 0.6562749800159872,
5769
+ "grad_norm": 0.40541303157806396,
5770
+ "learning_rate": 5.362254350926403e-05,
5771
+ "loss": 0.9728,
5772
+ "step": 821
5773
+ },
5774
+ {
5775
+ "epoch": 0.657074340527578,
5776
+ "grad_norm": 0.39156901836395264,
5777
+ "learning_rate": 5.3398413207212396e-05,
5778
+ "loss": 1.0248,
5779
+ "step": 822
5780
+ },
5781
+ {
5782
+ "epoch": 0.6578737010391686,
5783
+ "grad_norm": 0.3938673734664917,
5784
+ "learning_rate": 5.317458155112842e-05,
5785
+ "loss": 1.1646,
5786
+ "step": 823
5787
+ },
5788
+ {
5789
+ "epoch": 0.6586730615507594,
5790
+ "grad_norm": 0.4352782666683197,
5791
+ "learning_rate": 5.2951049975435786e-05,
5792
+ "loss": 1.159,
5793
+ "step": 824
5794
+ },
5795
+ {
5796
+ "epoch": 0.6594724220623501,
5797
+ "grad_norm": 0.44448021054267883,
5798
+ "learning_rate": 5.272781991263516e-05,
5799
+ "loss": 1.0434,
5800
+ "step": 825
5801
+ },
5802
+ {
5803
+ "epoch": 0.6602717825739408,
5804
+ "grad_norm": 0.415777325630188,
5805
+ "learning_rate": 5.2504892793295e-05,
5806
+ "loss": 0.9778,
5807
+ "step": 826
5808
+ },
5809
+ {
5810
+ "epoch": 0.6610711430855316,
5811
+ "grad_norm": 0.4741330146789551,
5812
+ "learning_rate": 5.228227004604225e-05,
5813
+ "loss": 1.0315,
5814
+ "step": 827
5815
+ },
5816
+ {
5817
+ "epoch": 0.6618705035971223,
5818
+ "grad_norm": 0.501546323299408,
5819
+ "learning_rate": 5.205995309755335e-05,
5820
+ "loss": 1.1244,
5821
+ "step": 828
5822
+ },
5823
+ {
5824
+ "epoch": 0.662669864108713,
5825
+ "grad_norm": 0.5114132165908813,
5826
+ "learning_rate": 5.183794337254504e-05,
5827
+ "loss": 1.0154,
5828
+ "step": 829
5829
+ },
5830
+ {
5831
+ "epoch": 0.6634692246203038,
5832
+ "grad_norm": 0.4979310631752014,
5833
+ "learning_rate": 5.1616242293765226e-05,
5834
+ "loss": 0.999,
5835
+ "step": 830
5836
+ },
5837
+ {
5838
+ "epoch": 0.6642685851318945,
5839
+ "grad_norm": 0.5462687611579895,
5840
+ "learning_rate": 5.139485128198381e-05,
5841
+ "loss": 0.997,
5842
+ "step": 831
5843
+ },
5844
+ {
5845
+ "epoch": 0.6650679456434853,
5846
+ "grad_norm": 0.5672511458396912,
5847
+ "learning_rate": 5.1173771755983724e-05,
5848
+ "loss": 1.0864,
5849
+ "step": 832
5850
+ },
5851
+ {
5852
+ "epoch": 0.6658673061550759,
5853
+ "grad_norm": 0.5668870210647583,
5854
+ "learning_rate": 5.095300513255157e-05,
5855
+ "loss": 1.1027,
5856
+ "step": 833
5857
+ },
5858
+ {
5859
+ "epoch": 0.6666666666666666,
5860
+ "grad_norm": 0.6862683296203613,
5861
+ "learning_rate": 5.0732552826468896e-05,
5862
+ "loss": 0.8694,
5863
+ "step": 834
5864
+ },
5865
+ {
5866
+ "epoch": 0.6674660271782574,
5867
+ "grad_norm": 0.7277308106422424,
5868
+ "learning_rate": 5.051241625050287e-05,
5869
+ "loss": 1.2427,
5870
+ "step": 835
5871
+ },
5872
+ {
5873
+ "epoch": 0.6682653876898481,
5874
+ "grad_norm": 0.610167384147644,
5875
+ "learning_rate": 5.029259681539732e-05,
5876
+ "loss": 1.1544,
5877
+ "step": 836
5878
+ },
5879
+ {
5880
+ "epoch": 0.6690647482014388,
5881
+ "grad_norm": 0.7170546054840088,
5882
+ "learning_rate": 5.007309592986367e-05,
5883
+ "loss": 0.8898,
5884
+ "step": 837
5885
+ },
5886
+ {
5887
+ "epoch": 0.6698641087130296,
5888
+ "grad_norm": 0.6002946496009827,
5889
+ "learning_rate": 4.985391500057192e-05,
5890
+ "loss": 1.0542,
5891
+ "step": 838
5892
+ },
5893
+ {
5894
+ "epoch": 0.6706634692246203,
5895
+ "grad_norm": 0.7680448889732361,
5896
+ "learning_rate": 4.963505543214167e-05,
5897
+ "loss": 0.8763,
5898
+ "step": 839
5899
+ },
5900
+ {
5901
+ "epoch": 0.6714628297362111,
5902
+ "grad_norm": 0.7870104312896729,
5903
+ "learning_rate": 4.9416518627133e-05,
5904
+ "loss": 0.9651,
5905
+ "step": 840
5906
+ },
5907
+ {
5908
+ "epoch": 0.6722621902478018,
5909
+ "grad_norm": 0.8171029686927795,
5910
+ "learning_rate": 4.919830598603763e-05,
5911
+ "loss": 1.1376,
5912
+ "step": 841
5913
+ },
5914
+ {
5915
+ "epoch": 0.6730615507593924,
5916
+ "grad_norm": 1.0324592590332031,
5917
+ "learning_rate": 4.8980418907269863e-05,
5918
+ "loss": 0.9915,
5919
+ "step": 842
5920
+ },
5921
+ {
5922
+ "epoch": 0.6738609112709832,
5923
+ "grad_norm": 0.8155781626701355,
5924
+ "learning_rate": 4.876285878715764e-05,
5925
+ "loss": 1.1595,
5926
+ "step": 843
5927
+ },
5928
+ {
5929
+ "epoch": 0.6746602717825739,
5930
+ "grad_norm": 0.9791491627693176,
5931
+ "learning_rate": 4.8545627019933584e-05,
5932
+ "loss": 1.2055,
5933
+ "step": 844
5934
+ },
5935
+ {
5936
+ "epoch": 0.6754596322941646,
5937
+ "grad_norm": 1.083111047744751,
5938
+ "learning_rate": 4.8328724997726095e-05,
5939
+ "loss": 1.1738,
5940
+ "step": 845
5941
+ },
5942
+ {
5943
+ "epoch": 0.6762589928057554,
5944
+ "grad_norm": 0.8534079194068909,
5945
+ "learning_rate": 4.811215411055031e-05,
5946
+ "loss": 1.1604,
5947
+ "step": 846
5948
+ },
5949
+ {
5950
+ "epoch": 0.6770583533173461,
5951
+ "grad_norm": 0.9267480969429016,
5952
+ "learning_rate": 4.78959157462994e-05,
5953
+ "loss": 1.0576,
5954
+ "step": 847
5955
+ },
5956
+ {
5957
+ "epoch": 0.6778577138289369,
5958
+ "grad_norm": 1.196876049041748,
5959
+ "learning_rate": 4.768001129073553e-05,
5960
+ "loss": 1.3485,
5961
+ "step": 848
5962
+ },
5963
+ {
5964
+ "epoch": 0.6786570743405276,
5965
+ "grad_norm": 1.2235941886901855,
5966
+ "learning_rate": 4.7464442127481e-05,
5967
+ "loss": 1.204,
5968
+ "step": 849
5969
+ },
5970
+ {
5971
+ "epoch": 0.6794564348521183,
5972
+ "grad_norm": 1.7451354265213013,
5973
+ "learning_rate": 4.724920963800939e-05,
5974
+ "loss": 1.3127,
5975
+ "step": 850
5976
+ },
5977
+ {
5978
+ "epoch": 0.6802557953637091,
5979
+ "grad_norm": 0.3947245180606842,
5980
+ "learning_rate": 4.703431520163675e-05,
5981
+ "loss": 1.0509,
5982
+ "step": 851
5983
+ },
5984
+ {
5985
+ "epoch": 0.6810551558752997,
5986
+ "grad_norm": 0.3554235100746155,
5987
+ "learning_rate": 4.6819760195512686e-05,
5988
+ "loss": 0.8586,
5989
+ "step": 852
5990
+ },
5991
+ {
5992
+ "epoch": 0.6818545163868905,
5993
+ "grad_norm": 0.39175039529800415,
5994
+ "learning_rate": 4.660554599461151e-05,
5995
+ "loss": 1.0003,
5996
+ "step": 853
5997
+ },
5998
+ {
5999
+ "epoch": 0.6826538768984812,
6000
+ "grad_norm": 0.38634535670280457,
6001
+ "learning_rate": 4.639167397172358e-05,
6002
+ "loss": 1.0581,
6003
+ "step": 854
6004
+ },
6005
+ {
6006
+ "epoch": 0.6834532374100719,
6007
+ "grad_norm": 0.41433098912239075,
6008
+ "learning_rate": 4.6178145497446404e-05,
6009
+ "loss": 1.0889,
6010
+ "step": 855
6011
+ },
6012
+ {
6013
+ "epoch": 0.6842525979216627,
6014
+ "grad_norm": 0.3703967034816742,
6015
+ "learning_rate": 4.596496194017576e-05,
6016
+ "loss": 1.1005,
6017
+ "step": 856
6018
+ },
6019
+ {
6020
+ "epoch": 0.6850519584332534,
6021
+ "grad_norm": 0.36882877349853516,
6022
+ "learning_rate": 4.575212466609713e-05,
6023
+ "loss": 0.9307,
6024
+ "step": 857
6025
+ },
6026
+ {
6027
+ "epoch": 0.6858513189448441,
6028
+ "grad_norm": 0.3600471019744873,
6029
+ "learning_rate": 4.553963503917681e-05,
6030
+ "loss": 0.893,
6031
+ "step": 858
6032
+ },
6033
+ {
6034
+ "epoch": 0.6866506794564349,
6035
+ "grad_norm": 0.33053648471832275,
6036
+ "learning_rate": 4.53274944211532e-05,
6037
+ "loss": 1.1211,
6038
+ "step": 859
6039
+ },
6040
+ {
6041
+ "epoch": 0.6874500399680256,
6042
+ "grad_norm": 0.37433984875679016,
6043
+ "learning_rate": 4.5115704171528105e-05,
6044
+ "loss": 1.0067,
6045
+ "step": 860
6046
+ },
6047
+ {
6048
+ "epoch": 0.6882494004796164,
6049
+ "grad_norm": 0.40663594007492065,
6050
+ "learning_rate": 4.490426564755792e-05,
6051
+ "loss": 1.0298,
6052
+ "step": 861
6053
+ },
6054
+ {
6055
+ "epoch": 0.689048760991207,
6056
+ "grad_norm": 0.49298176169395447,
6057
+ "learning_rate": 4.4693180204245074e-05,
6058
+ "loss": 1.0433,
6059
+ "step": 862
6060
+ },
6061
+ {
6062
+ "epoch": 0.6898481215027977,
6063
+ "grad_norm": 0.3631519377231598,
6064
+ "learning_rate": 4.448244919432929e-05,
6065
+ "loss": 1.1514,
6066
+ "step": 863
6067
+ },
6068
+ {
6069
+ "epoch": 0.6906474820143885,
6070
+ "grad_norm": 0.38605815172195435,
6071
+ "learning_rate": 4.427207396827886e-05,
6072
+ "loss": 1.1713,
6073
+ "step": 864
6074
+ },
6075
+ {
6076
+ "epoch": 0.6914468425259792,
6077
+ "grad_norm": 0.341621071100235,
6078
+ "learning_rate": 4.406205587428206e-05,
6079
+ "loss": 1.1695,
6080
+ "step": 865
6081
+ },
6082
+ {
6083
+ "epoch": 0.6922462030375699,
6084
+ "grad_norm": 0.3484615981578827,
6085
+ "learning_rate": 4.3852396258238536e-05,
6086
+ "loss": 1.0565,
6087
+ "step": 866
6088
+ },
6089
+ {
6090
+ "epoch": 0.6930455635491607,
6091
+ "grad_norm": 0.4451755881309509,
6092
+ "learning_rate": 4.3643096463750496e-05,
6093
+ "loss": 1.1425,
6094
+ "step": 867
6095
+ },
6096
+ {
6097
+ "epoch": 0.6938449240607514,
6098
+ "grad_norm": 0.4082989990711212,
6099
+ "learning_rate": 4.3434157832114373e-05,
6100
+ "loss": 0.9311,
6101
+ "step": 868
6102
+ },
6103
+ {
6104
+ "epoch": 0.6946442845723422,
6105
+ "grad_norm": 0.3935573101043701,
6106
+ "learning_rate": 4.3225581702312025e-05,
6107
+ "loss": 1.1656,
6108
+ "step": 869
6109
+ },
6110
+ {
6111
+ "epoch": 0.6954436450839329,
6112
+ "grad_norm": 0.44610002636909485,
6113
+ "learning_rate": 4.301736941100223e-05,
6114
+ "loss": 1.2297,
6115
+ "step": 870
6116
+ },
6117
+ {
6118
+ "epoch": 0.6962430055955235,
6119
+ "grad_norm": 0.44538775086402893,
6120
+ "learning_rate": 4.280952229251212e-05,
6121
+ "loss": 1.0755,
6122
+ "step": 871
6123
+ },
6124
+ {
6125
+ "epoch": 0.6970423661071143,
6126
+ "grad_norm": 0.4480975568294525,
6127
+ "learning_rate": 4.26020416788286e-05,
6128
+ "loss": 1.2264,
6129
+ "step": 872
6130
+ },
6131
+ {
6132
+ "epoch": 0.697841726618705,
6133
+ "grad_norm": 0.5919811129570007,
6134
+ "learning_rate": 4.239492889958988e-05,
6135
+ "loss": 1.118,
6136
+ "step": 873
6137
+ },
6138
+ {
6139
+ "epoch": 0.6986410871302957,
6140
+ "grad_norm": 0.4208342730998993,
6141
+ "learning_rate": 4.21881852820768e-05,
6142
+ "loss": 0.9921,
6143
+ "step": 874
6144
+ },
6145
+ {
6146
+ "epoch": 0.6994404476418865,
6147
+ "grad_norm": 0.4386043846607208,
6148
+ "learning_rate": 4.1981812151204513e-05,
6149
+ "loss": 0.9987,
6150
+ "step": 875
6151
+ },
6152
+ {
6153
+ "epoch": 0.7002398081534772,
6154
+ "grad_norm": 0.5912065505981445,
6155
+ "learning_rate": 4.177581082951393e-05,
6156
+ "loss": 1.1662,
6157
+ "step": 876
6158
+ },
6159
+ {
6160
+ "epoch": 0.701039168665068,
6161
+ "grad_norm": 0.5079301595687866,
6162
+ "learning_rate": 4.1570182637163155e-05,
6163
+ "loss": 1.0607,
6164
+ "step": 877
6165
+ },
6166
+ {
6167
+ "epoch": 0.7018385291766587,
6168
+ "grad_norm": 0.5225832462310791,
6169
+ "learning_rate": 4.136492889191914e-05,
6170
+ "loss": 1.0134,
6171
+ "step": 878
6172
+ },
6173
+ {
6174
+ "epoch": 0.7026378896882494,
6175
+ "grad_norm": 0.49494823813438416,
6176
+ "learning_rate": 4.1160050909149196e-05,
6177
+ "loss": 0.9564,
6178
+ "step": 879
6179
+ },
6180
+ {
6181
+ "epoch": 0.7034372501998402,
6182
+ "grad_norm": 0.5825321674346924,
6183
+ "learning_rate": 4.095555000181257e-05,
6184
+ "loss": 1.1002,
6185
+ "step": 880
6186
+ },
6187
+ {
6188
+ "epoch": 0.7042366107114308,
6189
+ "grad_norm": 0.5384085774421692,
6190
+ "learning_rate": 4.075142748045194e-05,
6191
+ "loss": 0.8761,
6192
+ "step": 881
6193
+ },
6194
+ {
6195
+ "epoch": 0.7050359712230215,
6196
+ "grad_norm": 0.5739712119102478,
6197
+ "learning_rate": 4.05476846531852e-05,
6198
+ "loss": 1.1312,
6199
+ "step": 882
6200
+ },
6201
+ {
6202
+ "epoch": 0.7058353317346123,
6203
+ "grad_norm": 0.5879523754119873,
6204
+ "learning_rate": 4.034432282569693e-05,
6205
+ "loss": 1.1856,
6206
+ "step": 883
6207
+ },
6208
+ {
6209
+ "epoch": 0.706634692246203,
6210
+ "grad_norm": 0.5788174867630005,
6211
+ "learning_rate": 4.0141343301230116e-05,
6212
+ "loss": 1.0818,
6213
+ "step": 884
6214
+ },
6215
+ {
6216
+ "epoch": 0.7074340527577938,
6217
+ "grad_norm": 0.6709664463996887,
6218
+ "learning_rate": 3.99387473805777e-05,
6219
+ "loss": 1.1062,
6220
+ "step": 885
6221
+ },
6222
+ {
6223
+ "epoch": 0.7082334132693845,
6224
+ "grad_norm": 0.7911237478256226,
6225
+ "learning_rate": 3.973653636207437e-05,
6226
+ "loss": 1.1432,
6227
+ "step": 886
6228
+ },
6229
+ {
6230
+ "epoch": 0.7090327737809752,
6231
+ "grad_norm": 0.6831583380699158,
6232
+ "learning_rate": 3.953471154158808e-05,
6233
+ "loss": 0.8802,
6234
+ "step": 887
6235
+ },
6236
+ {
6237
+ "epoch": 0.709832134292566,
6238
+ "grad_norm": 0.7837221026420593,
6239
+ "learning_rate": 3.9333274212511887e-05,
6240
+ "loss": 0.8944,
6241
+ "step": 888
6242
+ },
6243
+ {
6244
+ "epoch": 0.7106314948041567,
6245
+ "grad_norm": 0.6791643500328064,
6246
+ "learning_rate": 3.913222566575564e-05,
6247
+ "loss": 0.8216,
6248
+ "step": 889
6249
+ },
6250
+ {
6251
+ "epoch": 0.7114308553157475,
6252
+ "grad_norm": 0.8798190951347351,
6253
+ "learning_rate": 3.893156718973767e-05,
6254
+ "loss": 1.3466,
6255
+ "step": 890
6256
+ },
6257
+ {
6258
+ "epoch": 0.7122302158273381,
6259
+ "grad_norm": 0.8324375152587891,
6260
+ "learning_rate": 3.8731300070376464e-05,
6261
+ "loss": 1.074,
6262
+ "step": 891
6263
+ },
6264
+ {
6265
+ "epoch": 0.7130295763389288,
6266
+ "grad_norm": 1.132907748222351,
6267
+ "learning_rate": 3.8531425591082606e-05,
6268
+ "loss": 1.3694,
6269
+ "step": 892
6270
+ },
6271
+ {
6272
+ "epoch": 0.7138289368505196,
6273
+ "grad_norm": 1.0507283210754395,
6274
+ "learning_rate": 3.8331945032750374e-05,
6275
+ "loss": 1.2547,
6276
+ "step": 893
6277
+ },
6278
+ {
6279
+ "epoch": 0.7146282973621103,
6280
+ "grad_norm": 0.9351432919502258,
6281
+ "learning_rate": 3.813285967374969e-05,
6282
+ "loss": 1.0931,
6283
+ "step": 894
6284
+ },
6285
+ {
6286
+ "epoch": 0.715427657873701,
6287
+ "grad_norm": 1.1382817029953003,
6288
+ "learning_rate": 3.7934170789917724e-05,
6289
+ "loss": 1.2737,
6290
+ "step": 895
6291
+ },
6292
+ {
6293
+ "epoch": 0.7162270183852918,
6294
+ "grad_norm": 0.9496870636940002,
6295
+ "learning_rate": 3.773587965455093e-05,
6296
+ "loss": 1.1127,
6297
+ "step": 896
6298
+ },
6299
+ {
6300
+ "epoch": 0.7170263788968825,
6301
+ "grad_norm": 1.0737744569778442,
6302
+ "learning_rate": 3.753798753839677e-05,
6303
+ "loss": 1.2043,
6304
+ "step": 897
6305
+ },
6306
+ {
6307
+ "epoch": 0.7178257394084733,
6308
+ "grad_norm": 1.1727651357650757,
6309
+ "learning_rate": 3.7340495709645585e-05,
6310
+ "loss": 1.2318,
6311
+ "step": 898
6312
+ },
6313
+ {
6314
+ "epoch": 0.718625099920064,
6315
+ "grad_norm": 1.544258952140808,
6316
+ "learning_rate": 3.7143405433922485e-05,
6317
+ "loss": 1.3744,
6318
+ "step": 899
6319
+ },
6320
+ {
6321
+ "epoch": 0.7194244604316546,
6322
+ "grad_norm": 1.887011170387268,
6323
+ "learning_rate": 3.694671797427924e-05,
6324
+ "loss": 0.7498,
6325
+ "step": 900
6326
+ },
6327
+ {
6328
+ "epoch": 0.7202238209432454,
6329
+ "grad_norm": 0.359557181596756,
6330
+ "learning_rate": 3.675043459118619e-05,
6331
+ "loss": 0.9036,
6332
+ "step": 901
6333
+ },
6334
+ {
6335
+ "epoch": 0.7210231814548361,
6336
+ "grad_norm": 0.3796878159046173,
6337
+ "learning_rate": 3.6554556542524044e-05,
6338
+ "loss": 1.0923,
6339
+ "step": 902
6340
+ },
6341
+ {
6342
+ "epoch": 0.7218225419664268,
6343
+ "grad_norm": 0.39099475741386414,
6344
+ "learning_rate": 3.635908508357606e-05,
6345
+ "loss": 0.987,
6346
+ "step": 903
6347
+ },
6348
+ {
6349
+ "epoch": 0.7226219024780176,
6350
+ "grad_norm": 0.4106023907661438,
6351
+ "learning_rate": 3.6164021467019814e-05,
6352
+ "loss": 1.1539,
6353
+ "step": 904
6354
+ },
6355
+ {
6356
+ "epoch": 0.7234212629896083,
6357
+ "grad_norm": 0.391400545835495,
6358
+ "learning_rate": 3.5969366942919234e-05,
6359
+ "loss": 1.0677,
6360
+ "step": 905
6361
+ },
6362
+ {
6363
+ "epoch": 0.7242206235011991,
6364
+ "grad_norm": 0.35718274116516113,
6365
+ "learning_rate": 3.5775122758716585e-05,
6366
+ "loss": 1.1138,
6367
+ "step": 906
6368
+ },
6369
+ {
6370
+ "epoch": 0.7250199840127898,
6371
+ "grad_norm": 0.3467647135257721,
6372
+ "learning_rate": 3.558129015922448e-05,
6373
+ "loss": 1.097,
6374
+ "step": 907
6375
+ },
6376
+ {
6377
+ "epoch": 0.7258193445243805,
6378
+ "grad_norm": 0.37146949768066406,
6379
+ "learning_rate": 3.5387870386617826e-05,
6380
+ "loss": 1.0741,
6381
+ "step": 908
6382
+ },
6383
+ {
6384
+ "epoch": 0.7266187050359713,
6385
+ "grad_norm": 0.42259925603866577,
6386
+ "learning_rate": 3.519486468042602e-05,
6387
+ "loss": 1.042,
6388
+ "step": 909
6389
+ },
6390
+ {
6391
+ "epoch": 0.7274180655475619,
6392
+ "grad_norm": 0.3869469463825226,
6393
+ "learning_rate": 3.5002274277524874e-05,
6394
+ "loss": 0.9691,
6395
+ "step": 910
6396
+ },
6397
+ {
6398
+ "epoch": 0.7282174260591526,
6399
+ "grad_norm": 0.40922337770462036,
6400
+ "learning_rate": 3.4810100412128747e-05,
6401
+ "loss": 1.2811,
6402
+ "step": 911
6403
+ },
6404
+ {
6405
+ "epoch": 0.7290167865707434,
6406
+ "grad_norm": 0.4367547035217285,
6407
+ "learning_rate": 3.4618344315782604e-05,
6408
+ "loss": 1.1267,
6409
+ "step": 912
6410
+ },
6411
+ {
6412
+ "epoch": 0.7298161470823341,
6413
+ "grad_norm": 0.40415459871292114,
6414
+ "learning_rate": 3.442700721735417e-05,
6415
+ "loss": 1.118,
6416
+ "step": 913
6417
+ },
6418
+ {
6419
+ "epoch": 0.7306155075939249,
6420
+ "grad_norm": 0.37041985988616943,
6421
+ "learning_rate": 3.4236090343026004e-05,
6422
+ "loss": 0.9999,
6423
+ "step": 914
6424
+ },
6425
+ {
6426
+ "epoch": 0.7314148681055156,
6427
+ "grad_norm": 0.3673413395881653,
6428
+ "learning_rate": 3.4045594916287616e-05,
6429
+ "loss": 1.0145,
6430
+ "step": 915
6431
+ },
6432
+ {
6433
+ "epoch": 0.7322142286171063,
6434
+ "grad_norm": 0.44406071305274963,
6435
+ "learning_rate": 3.3855522157927756e-05,
6436
+ "loss": 1.0797,
6437
+ "step": 916
6438
+ },
6439
+ {
6440
+ "epoch": 0.7330135891286971,
6441
+ "grad_norm": 0.4258328080177307,
6442
+ "learning_rate": 3.3665873286026436e-05,
6443
+ "loss": 0.9991,
6444
+ "step": 917
6445
+ },
6446
+ {
6447
+ "epoch": 0.7338129496402878,
6448
+ "grad_norm": 0.381394624710083,
6449
+ "learning_rate": 3.3476649515947255e-05,
6450
+ "loss": 0.8769,
6451
+ "step": 918
6452
+ },
6453
+ {
6454
+ "epoch": 0.7346123101518784,
6455
+ "grad_norm": 0.4326583445072174,
6456
+ "learning_rate": 3.3287852060329514e-05,
6457
+ "loss": 1.1577,
6458
+ "step": 919
6459
+ },
6460
+ {
6461
+ "epoch": 0.7354116706634692,
6462
+ "grad_norm": 0.40116122364997864,
6463
+ "learning_rate": 3.309948212908052e-05,
6464
+ "loss": 0.9067,
6465
+ "step": 920
6466
+ },
6467
+ {
6468
+ "epoch": 0.7362110311750599,
6469
+ "grad_norm": 0.418855220079422,
6470
+ "learning_rate": 3.291154092936768e-05,
6471
+ "loss": 0.9349,
6472
+ "step": 921
6473
+ },
6474
+ {
6475
+ "epoch": 0.7370103916866507,
6476
+ "grad_norm": 0.3745797276496887,
6477
+ "learning_rate": 3.2724029665611e-05,
6478
+ "loss": 0.9903,
6479
+ "step": 922
6480
+ },
6481
+ {
6482
+ "epoch": 0.7378097521982414,
6483
+ "grad_norm": 0.44138798117637634,
6484
+ "learning_rate": 3.2536949539475193e-05,
6485
+ "loss": 1.0919,
6486
+ "step": 923
6487
+ },
6488
+ {
6489
+ "epoch": 0.7386091127098321,
6490
+ "grad_norm": 0.4620357155799866,
6491
+ "learning_rate": 3.235030174986209e-05,
6492
+ "loss": 1.3411,
6493
+ "step": 924
6494
+ },
6495
+ {
6496
+ "epoch": 0.7394084732214229,
6497
+ "grad_norm": 0.4606659412384033,
6498
+ "learning_rate": 3.216408749290276e-05,
6499
+ "loss": 1.0656,
6500
+ "step": 925
6501
+ },
6502
+ {
6503
+ "epoch": 0.7402078337330136,
6504
+ "grad_norm": 0.5463187098503113,
6505
+ "learning_rate": 3.197830796195011e-05,
6506
+ "loss": 1.1517,
6507
+ "step": 926
6508
+ },
6509
+ {
6510
+ "epoch": 0.7410071942446043,
6511
+ "grad_norm": 0.511232852935791,
6512
+ "learning_rate": 3.179296434757105e-05,
6513
+ "loss": 1.0564,
6514
+ "step": 927
6515
+ },
6516
+ {
6517
+ "epoch": 0.7418065547561951,
6518
+ "grad_norm": 0.5773586630821228,
6519
+ "learning_rate": 3.160805783753897e-05,
6520
+ "loss": 0.764,
6521
+ "step": 928
6522
+ },
6523
+ {
6524
+ "epoch": 0.7426059152677857,
6525
+ "grad_norm": 0.5721275806427002,
6526
+ "learning_rate": 3.1423589616825986e-05,
6527
+ "loss": 0.8128,
6528
+ "step": 929
6529
+ },
6530
+ {
6531
+ "epoch": 0.7434052757793765,
6532
+ "grad_norm": 0.6489303112030029,
6533
+ "learning_rate": 3.123956086759553e-05,
6534
+ "loss": 1.2348,
6535
+ "step": 930
6536
+ },
6537
+ {
6538
+ "epoch": 0.7442046362909672,
6539
+ "grad_norm": 0.6034092903137207,
6540
+ "learning_rate": 3.105597276919465e-05,
6541
+ "loss": 1.1123,
6542
+ "step": 931
6543
+ },
6544
+ {
6545
+ "epoch": 0.7450039968025579,
6546
+ "grad_norm": 0.6793666481971741,
6547
+ "learning_rate": 3.087282649814648e-05,
6548
+ "loss": 1.1772,
6549
+ "step": 932
6550
+ },
6551
+ {
6552
+ "epoch": 0.7458033573141487,
6553
+ "grad_norm": 0.6495110392570496,
6554
+ "learning_rate": 3.069012322814272e-05,
6555
+ "loss": 1.0015,
6556
+ "step": 933
6557
+ },
6558
+ {
6559
+ "epoch": 0.7466027178257394,
6560
+ "grad_norm": 0.6330723762512207,
6561
+ "learning_rate": 3.05078641300361e-05,
6562
+ "loss": 1.0119,
6563
+ "step": 934
6564
+ },
6565
+ {
6566
+ "epoch": 0.7474020783373302,
6567
+ "grad_norm": 0.8546098470687866,
6568
+ "learning_rate": 3.0326050371832892e-05,
6569
+ "loss": 0.9274,
6570
+ "step": 935
6571
+ },
6572
+ {
6573
+ "epoch": 0.7482014388489209,
6574
+ "grad_norm": 0.637100100517273,
6575
+ "learning_rate": 3.0144683118685335e-05,
6576
+ "loss": 0.9028,
6577
+ "step": 936
6578
+ },
6579
+ {
6580
+ "epoch": 0.7490007993605116,
6581
+ "grad_norm": 0.7471299767494202,
6582
+ "learning_rate": 2.9963763532884326e-05,
6583
+ "loss": 1.0216,
6584
+ "step": 937
6585
+ },
6586
+ {
6587
+ "epoch": 0.7498001598721024,
6588
+ "grad_norm": 0.6812106370925903,
6589
+ "learning_rate": 2.9783292773851857e-05,
6590
+ "loss": 1.013,
6591
+ "step": 938
6592
+ },
6593
+ {
6594
+ "epoch": 0.750599520383693,
6595
+ "grad_norm": 0.8330495357513428,
6596
+ "learning_rate": 2.960327199813362e-05,
6597
+ "loss": 1.1521,
6598
+ "step": 939
6599
+ },
6600
+ {
6601
+ "epoch": 0.750599520383693,
6602
+ "eval_loss": 1.0665621757507324,
6603
+ "eval_runtime": 40.4579,
6604
+ "eval_samples_per_second": 13.026,
6605
+ "eval_steps_per_second": 6.525,
6606
+ "step": 939
6607
  }
6608
  ],
6609
  "logging_steps": 1,
 
6623
  "attributes": {}
6624
  }
6625
  },
6626
+ "total_flos": 4.0964084154866074e+17,
6627
  "train_batch_size": 2,
6628
  "trial_name": null,
6629
  "trial_params": null