shantipriya commited on
Commit
6dbf088
·
verified ·
1 Parent(s): fa84042

Upload folder using huggingface_hub

Browse files
Files changed (5) hide show
  1. optimizer.pt +1 -1
  2. rng_state.pth +1 -1
  3. scheduler.pt +1 -1
  4. trainer_state.json +842 -2
  5. vocab.model +2 -2
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8981e8a951d08a649aafc2f91f32c98f1b5ad9c74ebcb4a6c163d41f276f0557
3
  size 853681210
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9e89ad651d32e985eb54278a73052c0a859f2fdcb293f4ee18fe1f6b24745a05
3
  size 853681210
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f378c82b680fef6aa4a65ad23e84317d9d1e44fdb63bea392f19560d8ec3d5b0
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:489158a799545f87c162b73e1abbfe1d0335b37508a47e870496f7918f8deec2
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4947f72f90d9368c51b08bb1bac775c4c7915e7575fd4c96cd29cf7138dcbdd3
3
  size 1000
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:990bf38066c8fa8004c28e3d0c1817b366ea6e1a5e89cf1f2a6ea3b8ad356075
3
  size 1000
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 9.047531854851739,
5
  "eval_steps": 500,
6
- "global_step": 1680000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -20167,6 +20167,846 @@
20167
  "learning_rate": 0.00020952468145148259,
20168
  "loss": 0.0,
20169
  "step": 1680000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
20170
  }
20171
  ],
20172
  "logging_steps": 500,
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 9.424512348803894,
5
  "eval_steps": 500,
6
+ "global_step": 1750000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
20167
  "learning_rate": 0.00020952468145148259,
20168
  "loss": 0.0,
20169
  "step": 1680000
20170
+ },
20171
+ {
20172
+ "epoch": 9.05,
20173
+ "learning_rate": 0.00020949775427334314,
20174
+ "loss": 0.0,
20175
+ "step": 1680500
20176
+ },
20177
+ {
20178
+ "epoch": 9.05,
20179
+ "learning_rate": 0.00020947082709520373,
20180
+ "loss": 0.0,
20181
+ "step": 1681000
20182
+ },
20183
+ {
20184
+ "epoch": 9.06,
20185
+ "learning_rate": 0.00020944389991706428,
20186
+ "loss": 0.0,
20187
+ "step": 1681500
20188
+ },
20189
+ {
20190
+ "epoch": 9.06,
20191
+ "learning_rate": 0.00020941697273892484,
20192
+ "loss": 0.0,
20193
+ "step": 1682000
20194
+ },
20195
+ {
20196
+ "epoch": 9.06,
20197
+ "learning_rate": 0.00020939004556078537,
20198
+ "loss": 0.0,
20199
+ "step": 1682500
20200
+ },
20201
+ {
20202
+ "epoch": 9.06,
20203
+ "learning_rate": 0.00020936311838264595,
20204
+ "loss": 0.0,
20205
+ "step": 1683000
20206
+ },
20207
+ {
20208
+ "epoch": 9.07,
20209
+ "learning_rate": 0.0002093361912045065,
20210
+ "loss": 0.0,
20211
+ "step": 1683500
20212
+ },
20213
+ {
20214
+ "epoch": 9.07,
20215
+ "learning_rate": 0.00020930926402636707,
20216
+ "loss": 0.0,
20217
+ "step": 1684000
20218
+ },
20219
+ {
20220
+ "epoch": 9.07,
20221
+ "learning_rate": 0.00020928233684822765,
20222
+ "loss": 0.0,
20223
+ "step": 1684500
20224
+ },
20225
+ {
20226
+ "epoch": 9.07,
20227
+ "learning_rate": 0.0002092554096700882,
20228
+ "loss": 0.0,
20229
+ "step": 1685000
20230
+ },
20231
+ {
20232
+ "epoch": 9.08,
20233
+ "learning_rate": 0.00020922848249194876,
20234
+ "loss": 0.0,
20235
+ "step": 1685500
20236
+ },
20237
+ {
20238
+ "epoch": 9.08,
20239
+ "learning_rate": 0.0002092015553138093,
20240
+ "loss": 0.0,
20241
+ "step": 1686000
20242
+ },
20243
+ {
20244
+ "epoch": 9.08,
20245
+ "learning_rate": 0.00020917462813566987,
20246
+ "loss": 0.0,
20247
+ "step": 1686500
20248
+ },
20249
+ {
20250
+ "epoch": 9.09,
20251
+ "learning_rate": 0.00020914770095753043,
20252
+ "loss": 0.0,
20253
+ "step": 1687000
20254
+ },
20255
+ {
20256
+ "epoch": 9.09,
20257
+ "learning_rate": 0.000209120773779391,
20258
+ "loss": 0.0,
20259
+ "step": 1687500
20260
+ },
20261
+ {
20262
+ "epoch": 9.09,
20263
+ "learning_rate": 0.00020909384660125154,
20264
+ "loss": 0.0,
20265
+ "step": 1688000
20266
+ },
20267
+ {
20268
+ "epoch": 9.09,
20269
+ "learning_rate": 0.00020906691942311213,
20270
+ "loss": 0.0,
20271
+ "step": 1688500
20272
+ },
20273
+ {
20274
+ "epoch": 9.1,
20275
+ "learning_rate": 0.00020903999224497268,
20276
+ "loss": 0.0,
20277
+ "step": 1689000
20278
+ },
20279
+ {
20280
+ "epoch": 9.1,
20281
+ "learning_rate": 0.00020901306506683324,
20282
+ "loss": 0.0,
20283
+ "step": 1689500
20284
+ },
20285
+ {
20286
+ "epoch": 9.1,
20287
+ "learning_rate": 0.00020898613788869377,
20288
+ "loss": 0.0,
20289
+ "step": 1690000
20290
+ },
20291
+ {
20292
+ "epoch": 9.1,
20293
+ "learning_rate": 0.00020895921071055435,
20294
+ "loss": 0.0,
20295
+ "step": 1690500
20296
+ },
20297
+ {
20298
+ "epoch": 9.11,
20299
+ "learning_rate": 0.0002089322835324149,
20300
+ "loss": 0.0,
20301
+ "step": 1691000
20302
+ },
20303
+ {
20304
+ "epoch": 9.11,
20305
+ "learning_rate": 0.00020890535635427547,
20306
+ "loss": 0.0,
20307
+ "step": 1691500
20308
+ },
20309
+ {
20310
+ "epoch": 9.11,
20311
+ "learning_rate": 0.00020887842917613605,
20312
+ "loss": 0.0,
20313
+ "step": 1692000
20314
+ },
20315
+ {
20316
+ "epoch": 9.11,
20317
+ "learning_rate": 0.0002088515019979966,
20318
+ "loss": 0.0,
20319
+ "step": 1692500
20320
+ },
20321
+ {
20322
+ "epoch": 9.12,
20323
+ "learning_rate": 0.00020882457481985716,
20324
+ "loss": 0.0,
20325
+ "step": 1693000
20326
+ },
20327
+ {
20328
+ "epoch": 9.12,
20329
+ "learning_rate": 0.00020879764764171775,
20330
+ "loss": 0.0,
20331
+ "step": 1693500
20332
+ },
20333
+ {
20334
+ "epoch": 9.12,
20335
+ "learning_rate": 0.00020877072046357828,
20336
+ "loss": 0.0,
20337
+ "step": 1694000
20338
+ },
20339
+ {
20340
+ "epoch": 9.13,
20341
+ "learning_rate": 0.00020874379328543883,
20342
+ "loss": 0.0,
20343
+ "step": 1694500
20344
+ },
20345
+ {
20346
+ "epoch": 9.13,
20347
+ "learning_rate": 0.0002087168661072994,
20348
+ "loss": 0.0,
20349
+ "step": 1695000
20350
+ },
20351
+ {
20352
+ "epoch": 9.13,
20353
+ "learning_rate": 0.00020868993892915997,
20354
+ "loss": 0.0,
20355
+ "step": 1695500
20356
+ },
20357
+ {
20358
+ "epoch": 9.13,
20359
+ "learning_rate": 0.00020866301175102053,
20360
+ "loss": 0.0,
20361
+ "step": 1696000
20362
+ },
20363
+ {
20364
+ "epoch": 9.14,
20365
+ "learning_rate": 0.0002086360845728811,
20366
+ "loss": 0.0,
20367
+ "step": 1696500
20368
+ },
20369
+ {
20370
+ "epoch": 9.14,
20371
+ "learning_rate": 0.00020860915739474164,
20372
+ "loss": 0.0,
20373
+ "step": 1697000
20374
+ },
20375
+ {
20376
+ "epoch": 9.14,
20377
+ "learning_rate": 0.00020858223021660217,
20378
+ "loss": 0.0,
20379
+ "step": 1697500
20380
+ },
20381
+ {
20382
+ "epoch": 9.14,
20383
+ "learning_rate": 0.00020855530303846276,
20384
+ "loss": 0.0,
20385
+ "step": 1698000
20386
+ },
20387
+ {
20388
+ "epoch": 9.15,
20389
+ "learning_rate": 0.0002085283758603233,
20390
+ "loss": 0.0,
20391
+ "step": 1698500
20392
+ },
20393
+ {
20394
+ "epoch": 9.15,
20395
+ "learning_rate": 0.00020850144868218387,
20396
+ "loss": 0.0,
20397
+ "step": 1699000
20398
+ },
20399
+ {
20400
+ "epoch": 9.15,
20401
+ "learning_rate": 0.00020847452150404445,
20402
+ "loss": 0.0,
20403
+ "step": 1699500
20404
+ },
20405
+ {
20406
+ "epoch": 9.16,
20407
+ "learning_rate": 0.000208447594325905,
20408
+ "loss": 0.0,
20409
+ "step": 1700000
20410
+ },
20411
+ {
20412
+ "epoch": 9.16,
20413
+ "learning_rate": 0.00020842066714776557,
20414
+ "loss": 0.0,
20415
+ "step": 1700500
20416
+ },
20417
+ {
20418
+ "epoch": 9.16,
20419
+ "learning_rate": 0.00020839373996962615,
20420
+ "loss": 0.0,
20421
+ "step": 1701000
20422
+ },
20423
+ {
20424
+ "epoch": 9.16,
20425
+ "learning_rate": 0.00020836681279148668,
20426
+ "loss": 0.0,
20427
+ "step": 1701500
20428
+ },
20429
+ {
20430
+ "epoch": 9.17,
20431
+ "learning_rate": 0.00020833988561334724,
20432
+ "loss": 0.0,
20433
+ "step": 1702000
20434
+ },
20435
+ {
20436
+ "epoch": 9.17,
20437
+ "learning_rate": 0.0002083129584352078,
20438
+ "loss": 0.0,
20439
+ "step": 1702500
20440
+ },
20441
+ {
20442
+ "epoch": 9.17,
20443
+ "learning_rate": 0.00020828603125706838,
20444
+ "loss": 0.0,
20445
+ "step": 1703000
20446
+ },
20447
+ {
20448
+ "epoch": 9.17,
20449
+ "learning_rate": 0.00020825910407892893,
20450
+ "loss": 0.0,
20451
+ "step": 1703500
20452
+ },
20453
+ {
20454
+ "epoch": 9.18,
20455
+ "learning_rate": 0.0002082321769007895,
20456
+ "loss": 0.0,
20457
+ "step": 1704000
20458
+ },
20459
+ {
20460
+ "epoch": 9.18,
20461
+ "learning_rate": 0.00020820524972265005,
20462
+ "loss": 0.0,
20463
+ "step": 1704500
20464
+ },
20465
+ {
20466
+ "epoch": 9.18,
20467
+ "learning_rate": 0.00020817832254451063,
20468
+ "loss": 0.0,
20469
+ "step": 1705000
20470
+ },
20471
+ {
20472
+ "epoch": 9.18,
20473
+ "learning_rate": 0.00020815139536637116,
20474
+ "loss": 0.0,
20475
+ "step": 1705500
20476
+ },
20477
+ {
20478
+ "epoch": 9.19,
20479
+ "learning_rate": 0.00020812446818823172,
20480
+ "loss": 0.0,
20481
+ "step": 1706000
20482
+ },
20483
+ {
20484
+ "epoch": 9.19,
20485
+ "learning_rate": 0.00020809754101009227,
20486
+ "loss": 0.0,
20487
+ "step": 1706500
20488
+ },
20489
+ {
20490
+ "epoch": 9.19,
20491
+ "learning_rate": 0.00020807061383195286,
20492
+ "loss": 0.0,
20493
+ "step": 1707000
20494
+ },
20495
+ {
20496
+ "epoch": 9.2,
20497
+ "learning_rate": 0.0002080436866538134,
20498
+ "loss": 0.0,
20499
+ "step": 1707500
20500
+ },
20501
+ {
20502
+ "epoch": 9.2,
20503
+ "learning_rate": 0.00020801675947567397,
20504
+ "loss": 0.0,
20505
+ "step": 1708000
20506
+ },
20507
+ {
20508
+ "epoch": 9.2,
20509
+ "learning_rate": 0.00020798983229753455,
20510
+ "loss": 0.0,
20511
+ "step": 1708500
20512
+ },
20513
+ {
20514
+ "epoch": 9.2,
20515
+ "learning_rate": 0.00020796290511939508,
20516
+ "loss": 0.0,
20517
+ "step": 1709000
20518
+ },
20519
+ {
20520
+ "epoch": 9.21,
20521
+ "learning_rate": 0.00020793597794125564,
20522
+ "loss": 0.0,
20523
+ "step": 1709500
20524
+ },
20525
+ {
20526
+ "epoch": 9.21,
20527
+ "learning_rate": 0.0002079090507631162,
20528
+ "loss": 0.0,
20529
+ "step": 1710000
20530
+ },
20531
+ {
20532
+ "epoch": 9.21,
20533
+ "learning_rate": 0.00020788212358497678,
20534
+ "loss": 0.0,
20535
+ "step": 1710500
20536
+ },
20537
+ {
20538
+ "epoch": 9.21,
20539
+ "learning_rate": 0.00020785519640683734,
20540
+ "loss": 0.0,
20541
+ "step": 1711000
20542
+ },
20543
+ {
20544
+ "epoch": 9.22,
20545
+ "learning_rate": 0.0002078282692286979,
20546
+ "loss": 0.0,
20547
+ "step": 1711500
20548
+ },
20549
+ {
20550
+ "epoch": 9.22,
20551
+ "learning_rate": 0.00020780134205055845,
20552
+ "loss": 0.0,
20553
+ "step": 1712000
20554
+ },
20555
+ {
20556
+ "epoch": 9.22,
20557
+ "learning_rate": 0.00020777441487241903,
20558
+ "loss": 0.0,
20559
+ "step": 1712500
20560
+ },
20561
+ {
20562
+ "epoch": 9.23,
20563
+ "learning_rate": 0.00020774748769427956,
20564
+ "loss": 0.0,
20565
+ "step": 1713000
20566
+ },
20567
+ {
20568
+ "epoch": 9.23,
20569
+ "learning_rate": 0.00020772056051614012,
20570
+ "loss": 0.0,
20571
+ "step": 1713500
20572
+ },
20573
+ {
20574
+ "epoch": 9.23,
20575
+ "learning_rate": 0.00020769363333800067,
20576
+ "loss": 0.0,
20577
+ "step": 1714000
20578
+ },
20579
+ {
20580
+ "epoch": 9.23,
20581
+ "learning_rate": 0.00020766670615986126,
20582
+ "loss": 0.0,
20583
+ "step": 1714500
20584
+ },
20585
+ {
20586
+ "epoch": 9.24,
20587
+ "learning_rate": 0.00020763977898172181,
20588
+ "loss": 0.0,
20589
+ "step": 1715000
20590
+ },
20591
+ {
20592
+ "epoch": 9.24,
20593
+ "learning_rate": 0.00020761285180358237,
20594
+ "loss": 0.0,
20595
+ "step": 1715500
20596
+ },
20597
+ {
20598
+ "epoch": 9.24,
20599
+ "learning_rate": 0.00020758592462544295,
20600
+ "loss": 0.0,
20601
+ "step": 1716000
20602
+ },
20603
+ {
20604
+ "epoch": 9.24,
20605
+ "learning_rate": 0.0002075589974473035,
20606
+ "loss": 0.0,
20607
+ "step": 1716500
20608
+ },
20609
+ {
20610
+ "epoch": 9.25,
20611
+ "learning_rate": 0.00020753207026916404,
20612
+ "loss": 0.0,
20613
+ "step": 1717000
20614
+ },
20615
+ {
20616
+ "epoch": 9.25,
20617
+ "learning_rate": 0.0002075051430910246,
20618
+ "loss": 0.0,
20619
+ "step": 1717500
20620
+ },
20621
+ {
20622
+ "epoch": 9.25,
20623
+ "learning_rate": 0.00020747821591288518,
20624
+ "loss": 0.0,
20625
+ "step": 1718000
20626
+ },
20627
+ {
20628
+ "epoch": 9.25,
20629
+ "learning_rate": 0.00020745128873474574,
20630
+ "loss": 0.0,
20631
+ "step": 1718500
20632
+ },
20633
+ {
20634
+ "epoch": 9.26,
20635
+ "learning_rate": 0.0002074243615566063,
20636
+ "loss": 0.0,
20637
+ "step": 1719000
20638
+ },
20639
+ {
20640
+ "epoch": 9.26,
20641
+ "learning_rate": 0.00020739743437846688,
20642
+ "loss": 0.0,
20643
+ "step": 1719500
20644
+ },
20645
+ {
20646
+ "epoch": 9.26,
20647
+ "learning_rate": 0.00020737050720032743,
20648
+ "loss": 0.0,
20649
+ "step": 1720000
20650
+ },
20651
+ {
20652
+ "epoch": 9.27,
20653
+ "learning_rate": 0.00020734358002218796,
20654
+ "loss": 0.0,
20655
+ "step": 1720500
20656
+ },
20657
+ {
20658
+ "epoch": 9.27,
20659
+ "learning_rate": 0.00020731665284404852,
20660
+ "loss": 0.0,
20661
+ "step": 1721000
20662
+ },
20663
+ {
20664
+ "epoch": 9.27,
20665
+ "learning_rate": 0.00020728972566590908,
20666
+ "loss": 0.0,
20667
+ "step": 1721500
20668
+ },
20669
+ {
20670
+ "epoch": 9.27,
20671
+ "learning_rate": 0.00020726279848776966,
20672
+ "loss": 0.0,
20673
+ "step": 1722000
20674
+ },
20675
+ {
20676
+ "epoch": 9.28,
20677
+ "learning_rate": 0.00020723587130963022,
20678
+ "loss": 0.0,
20679
+ "step": 1722500
20680
+ },
20681
+ {
20682
+ "epoch": 9.28,
20683
+ "learning_rate": 0.00020720894413149077,
20684
+ "loss": 0.0,
20685
+ "step": 1723000
20686
+ },
20687
+ {
20688
+ "epoch": 9.28,
20689
+ "learning_rate": 0.00020718201695335136,
20690
+ "loss": 0.0,
20691
+ "step": 1723500
20692
+ },
20693
+ {
20694
+ "epoch": 9.28,
20695
+ "learning_rate": 0.00020715508977521191,
20696
+ "loss": 0.0,
20697
+ "step": 1724000
20698
+ },
20699
+ {
20700
+ "epoch": 9.29,
20701
+ "learning_rate": 0.00020712816259707244,
20702
+ "loss": 0.0,
20703
+ "step": 1724500
20704
+ },
20705
+ {
20706
+ "epoch": 9.29,
20707
+ "learning_rate": 0.000207101235418933,
20708
+ "loss": 0.0,
20709
+ "step": 1725000
20710
+ },
20711
+ {
20712
+ "epoch": 9.29,
20713
+ "learning_rate": 0.00020707430824079358,
20714
+ "loss": 0.0,
20715
+ "step": 1725500
20716
+ },
20717
+ {
20718
+ "epoch": 9.3,
20719
+ "learning_rate": 0.00020704738106265414,
20720
+ "loss": 0.0,
20721
+ "step": 1726000
20722
+ },
20723
+ {
20724
+ "epoch": 9.3,
20725
+ "learning_rate": 0.0002070204538845147,
20726
+ "loss": 0.0,
20727
+ "step": 1726500
20728
+ },
20729
+ {
20730
+ "epoch": 9.3,
20731
+ "learning_rate": 0.00020699352670637528,
20732
+ "loss": 0.0,
20733
+ "step": 1727000
20734
+ },
20735
+ {
20736
+ "epoch": 9.3,
20737
+ "learning_rate": 0.00020696659952823584,
20738
+ "loss": 0.0,
20739
+ "step": 1727500
20740
+ },
20741
+ {
20742
+ "epoch": 9.31,
20743
+ "learning_rate": 0.0002069396723500964,
20744
+ "loss": 0.0,
20745
+ "step": 1728000
20746
+ },
20747
+ {
20748
+ "epoch": 9.31,
20749
+ "learning_rate": 0.00020691274517195692,
20750
+ "loss": 0.0,
20751
+ "step": 1728500
20752
+ },
20753
+ {
20754
+ "epoch": 9.31,
20755
+ "learning_rate": 0.0002068858179938175,
20756
+ "loss": 0.0,
20757
+ "step": 1729000
20758
+ },
20759
+ {
20760
+ "epoch": 9.31,
20761
+ "learning_rate": 0.00020685889081567806,
20762
+ "loss": 0.0,
20763
+ "step": 1729500
20764
+ },
20765
+ {
20766
+ "epoch": 9.32,
20767
+ "learning_rate": 0.00020683196363753862,
20768
+ "loss": 0.0,
20769
+ "step": 1730000
20770
+ },
20771
+ {
20772
+ "epoch": 9.32,
20773
+ "learning_rate": 0.00020680503645939918,
20774
+ "loss": 0.0,
20775
+ "step": 1730500
20776
+ },
20777
+ {
20778
+ "epoch": 9.32,
20779
+ "learning_rate": 0.00020677810928125976,
20780
+ "loss": 0.0,
20781
+ "step": 1731000
20782
+ },
20783
+ {
20784
+ "epoch": 9.32,
20785
+ "learning_rate": 0.00020675118210312032,
20786
+ "loss": 0.0,
20787
+ "step": 1731500
20788
+ },
20789
+ {
20790
+ "epoch": 9.33,
20791
+ "learning_rate": 0.00020672425492498085,
20792
+ "loss": 0.0,
20793
+ "step": 1732000
20794
+ },
20795
+ {
20796
+ "epoch": 9.33,
20797
+ "learning_rate": 0.0002066973277468414,
20798
+ "loss": 0.0,
20799
+ "step": 1732500
20800
+ },
20801
+ {
20802
+ "epoch": 9.33,
20803
+ "learning_rate": 0.00020667040056870199,
20804
+ "loss": 0.0,
20805
+ "step": 1733000
20806
+ },
20807
+ {
20808
+ "epoch": 9.34,
20809
+ "learning_rate": 0.00020664347339056254,
20810
+ "loss": 0.0,
20811
+ "step": 1733500
20812
+ },
20813
+ {
20814
+ "epoch": 9.34,
20815
+ "learning_rate": 0.0002066165462124231,
20816
+ "loss": 0.0,
20817
+ "step": 1734000
20818
+ },
20819
+ {
20820
+ "epoch": 9.34,
20821
+ "learning_rate": 0.00020658961903428368,
20822
+ "loss": 0.0,
20823
+ "step": 1734500
20824
+ },
20825
+ {
20826
+ "epoch": 9.34,
20827
+ "learning_rate": 0.00020656269185614424,
20828
+ "loss": 0.0,
20829
+ "step": 1735000
20830
+ },
20831
+ {
20832
+ "epoch": 9.35,
20833
+ "learning_rate": 0.0002065357646780048,
20834
+ "loss": 0.0,
20835
+ "step": 1735500
20836
+ },
20837
+ {
20838
+ "epoch": 9.35,
20839
+ "learning_rate": 0.00020650883749986532,
20840
+ "loss": 0.0,
20841
+ "step": 1736000
20842
+ },
20843
+ {
20844
+ "epoch": 9.35,
20845
+ "learning_rate": 0.0002064819103217259,
20846
+ "loss": 0.0,
20847
+ "step": 1736500
20848
+ },
20849
+ {
20850
+ "epoch": 9.35,
20851
+ "learning_rate": 0.00020645498314358647,
20852
+ "loss": 0.0,
20853
+ "step": 1737000
20854
+ },
20855
+ {
20856
+ "epoch": 9.36,
20857
+ "learning_rate": 0.00020642805596544702,
20858
+ "loss": 0.0,
20859
+ "step": 1737500
20860
+ },
20861
+ {
20862
+ "epoch": 9.36,
20863
+ "learning_rate": 0.00020640112878730758,
20864
+ "loss": 0.0,
20865
+ "step": 1738000
20866
+ },
20867
+ {
20868
+ "epoch": 9.36,
20869
+ "learning_rate": 0.00020637420160916816,
20870
+ "loss": 0.0,
20871
+ "step": 1738500
20872
+ },
20873
+ {
20874
+ "epoch": 9.37,
20875
+ "learning_rate": 0.00020634727443102872,
20876
+ "loss": 0.0,
20877
+ "step": 1739000
20878
+ },
20879
+ {
20880
+ "epoch": 9.37,
20881
+ "learning_rate": 0.00020632034725288927,
20882
+ "loss": 0.0,
20883
+ "step": 1739500
20884
+ },
20885
+ {
20886
+ "epoch": 9.37,
20887
+ "learning_rate": 0.0002062934200747498,
20888
+ "loss": 0.0,
20889
+ "step": 1740000
20890
+ },
20891
+ {
20892
+ "epoch": 9.37,
20893
+ "learning_rate": 0.0002062664928966104,
20894
+ "loss": 0.0,
20895
+ "step": 1740500
20896
+ },
20897
+ {
20898
+ "epoch": 9.38,
20899
+ "learning_rate": 0.00020623956571847094,
20900
+ "loss": 0.0,
20901
+ "step": 1741000
20902
+ },
20903
+ {
20904
+ "epoch": 9.38,
20905
+ "learning_rate": 0.0002062126385403315,
20906
+ "loss": 0.0,
20907
+ "step": 1741500
20908
+ },
20909
+ {
20910
+ "epoch": 9.38,
20911
+ "learning_rate": 0.00020618571136219208,
20912
+ "loss": 0.0,
20913
+ "step": 1742000
20914
+ },
20915
+ {
20916
+ "epoch": 9.38,
20917
+ "learning_rate": 0.00020615878418405264,
20918
+ "loss": 0.0,
20919
+ "step": 1742500
20920
+ },
20921
+ {
20922
+ "epoch": 9.39,
20923
+ "learning_rate": 0.0002061318570059132,
20924
+ "loss": 0.0,
20925
+ "step": 1743000
20926
+ },
20927
+ {
20928
+ "epoch": 9.39,
20929
+ "learning_rate": 0.00020610492982777373,
20930
+ "loss": 0.0,
20931
+ "step": 1743500
20932
+ },
20933
+ {
20934
+ "epoch": 9.39,
20935
+ "learning_rate": 0.0002060780026496343,
20936
+ "loss": 0.0,
20937
+ "step": 1744000
20938
+ },
20939
+ {
20940
+ "epoch": 9.39,
20941
+ "learning_rate": 0.00020605107547149487,
20942
+ "loss": 0.0,
20943
+ "step": 1744500
20944
+ },
20945
+ {
20946
+ "epoch": 9.4,
20947
+ "learning_rate": 0.00020602414829335542,
20948
+ "loss": 0.0,
20949
+ "step": 1745000
20950
+ },
20951
+ {
20952
+ "epoch": 9.4,
20953
+ "learning_rate": 0.00020599722111521598,
20954
+ "loss": 0.0,
20955
+ "step": 1745500
20956
+ },
20957
+ {
20958
+ "epoch": 9.4,
20959
+ "learning_rate": 0.00020597029393707656,
20960
+ "loss": 0.0,
20961
+ "step": 1746000
20962
+ },
20963
+ {
20964
+ "epoch": 9.41,
20965
+ "learning_rate": 0.00020594336675893712,
20966
+ "loss": 0.0,
20967
+ "step": 1746500
20968
+ },
20969
+ {
20970
+ "epoch": 9.41,
20971
+ "learning_rate": 0.00020591643958079768,
20972
+ "loss": 0.0,
20973
+ "step": 1747000
20974
+ },
20975
+ {
20976
+ "epoch": 9.41,
20977
+ "learning_rate": 0.0002058895124026582,
20978
+ "loss": 0.0,
20979
+ "step": 1747500
20980
+ },
20981
+ {
20982
+ "epoch": 9.41,
20983
+ "learning_rate": 0.0002058625852245188,
20984
+ "loss": 0.0,
20985
+ "step": 1748000
20986
+ },
20987
+ {
20988
+ "epoch": 9.42,
20989
+ "learning_rate": 0.00020583565804637935,
20990
+ "loss": 0.0,
20991
+ "step": 1748500
20992
+ },
20993
+ {
20994
+ "epoch": 9.42,
20995
+ "learning_rate": 0.0002058087308682399,
20996
+ "loss": 0.0,
20997
+ "step": 1749000
20998
+ },
20999
+ {
21000
+ "epoch": 9.42,
21001
+ "learning_rate": 0.0002057818036901005,
21002
+ "loss": 0.0,
21003
+ "step": 1749500
21004
+ },
21005
+ {
21006
+ "epoch": 9.42,
21007
+ "learning_rate": 0.00020575487651196104,
21008
+ "loss": 0.0,
21009
+ "step": 1750000
21010
  }
21011
  ],
21012
  "logging_steps": 500,
vocab.model CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:61f6b7a026762e741c018f7964d84a7fff156d66b99565ea217ea61d985ed1b3
3
- size 1536738
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:913db505dc9a9500992c7fc62f6038e04d17748445d9a72fe81b92b6eb78b0c8
3
+ size 1536750