dabrown commited on
Commit
1805b8c
·
verified ·
1 Parent(s): 437acdd

Training in progress, step 1099, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2788e6dfb6435e62bc41b789bd050e58a00b8e97462570125c1f3a3b3a5752c3
3
  size 80792096
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2b5013b3b98299a02e1a1064d79cdcbbf953b32f057f7227ec6f66e9425151e8
3
  size 80792096
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:51f9f9871646780dbef98536e3ba6799fe3cd11660641ef8398a22395fd35d67
3
  size 41460084
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:785b47bba2f2b41c201771bb12d0ac1163e96682bc12bf2d077a0764e62d6f33
3
  size 41460084
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:37ed957e35db52d753e90b2e89a572c6b011e6c971890858f14f12a4305efd1f
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc4a264850458b77faa6649b6383744f11fc708a51b406678a774874a223c17
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:797085a729e10588f0af8dfcea7980f4fc8438c6de826417968959a62c5bdc9a
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:47d824ff435dfab48400f8d61469d75b87bb5e0fd7d8ed8b38a440a6169896cc
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7509386733416771,
5
  "eval_steps": 275,
6
- "global_step": 825,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5814,6 +5814,1924 @@
5814
  "eval_samples_per_second": 9.011,
5815
  "eval_steps_per_second": 4.508,
5816
  "step": 825
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5817
  }
5818
  ],
5819
  "logging_steps": 1,
@@ -5828,12 +7746,12 @@
5828
  "should_evaluate": false,
5829
  "should_log": false,
5830
  "should_save": true,
5831
- "should_training_stop": false
5832
  },
5833
  "attributes": {}
5834
  }
5835
  },
5836
- "total_flos": 1.5204499502137344e+18,
5837
  "train_batch_size": 2,
5838
  "trial_name": null,
5839
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.0006826715212198,
5
  "eval_steps": 275,
6
+ "global_step": 1099,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5814
  "eval_samples_per_second": 9.011,
5815
  "eval_steps_per_second": 4.508,
5816
  "step": 825
5817
+ },
5818
+ {
5819
+ "epoch": 0.7518489020366367,
5820
+ "grad_norm": 0.4428364336490631,
5821
+ "learning_rate": 2.944247910759097e-05,
5822
+ "loss": 2.1631,
5823
+ "step": 826
5824
+ },
5825
+ {
5826
+ "epoch": 0.7527591307315963,
5827
+ "grad_norm": 0.43727412819862366,
5828
+ "learning_rate": 2.9238342996745817e-05,
5829
+ "loss": 2.1495,
5830
+ "step": 827
5831
+ },
5832
+ {
5833
+ "epoch": 0.7536693594265559,
5834
+ "grad_norm": 0.45698437094688416,
5835
+ "learning_rate": 2.9034795786069436e-05,
5836
+ "loss": 2.1497,
5837
+ "step": 828
5838
+ },
5839
+ {
5840
+ "epoch": 0.7545795881215155,
5841
+ "grad_norm": 0.423408567905426,
5842
+ "learning_rate": 2.8831839169543996e-05,
5843
+ "loss": 1.9607,
5844
+ "step": 829
5845
+ },
5846
+ {
5847
+ "epoch": 0.7554898168164751,
5848
+ "grad_norm": 0.4666843116283417,
5849
+ "learning_rate": 2.862947483623659e-05,
5850
+ "loss": 2.1271,
5851
+ "step": 830
5852
+ },
5853
+ {
5854
+ "epoch": 0.7564000455114347,
5855
+ "grad_norm": 0.46026623249053955,
5856
+ "learning_rate": 2.8427704470285144e-05,
5857
+ "loss": 2.1943,
5858
+ "step": 831
5859
+ },
5860
+ {
5861
+ "epoch": 0.7573102742063944,
5862
+ "grad_norm": 0.459824800491333,
5863
+ "learning_rate": 2.8226529750884402e-05,
5864
+ "loss": 2.0793,
5865
+ "step": 832
5866
+ },
5867
+ {
5868
+ "epoch": 0.758220502901354,
5869
+ "grad_norm": 0.4680033326148987,
5870
+ "learning_rate": 2.8025952352271958e-05,
5871
+ "loss": 2.1652,
5872
+ "step": 833
5873
+ },
5874
+ {
5875
+ "epoch": 0.7591307315963136,
5876
+ "grad_norm": 0.47054019570350647,
5877
+ "learning_rate": 2.7825973943714335e-05,
5878
+ "loss": 2.1526,
5879
+ "step": 834
5880
+ },
5881
+ {
5882
+ "epoch": 0.7600409602912732,
5883
+ "grad_norm": 0.465668648481369,
5884
+ "learning_rate": 2.7626596189492983e-05,
5885
+ "loss": 2.0476,
5886
+ "step": 835
5887
+ },
5888
+ {
5889
+ "epoch": 0.7609511889862328,
5890
+ "grad_norm": 0.47716715931892395,
5891
+ "learning_rate": 2.7427820748890685e-05,
5892
+ "loss": 2.1511,
5893
+ "step": 836
5894
+ },
5895
+ {
5896
+ "epoch": 0.7618614176811924,
5897
+ "grad_norm": 0.468532532453537,
5898
+ "learning_rate": 2.7229649276177503e-05,
5899
+ "loss": 2.1065,
5900
+ "step": 837
5901
+ },
5902
+ {
5903
+ "epoch": 0.762771646376152,
5904
+ "grad_norm": 0.4883919358253479,
5905
+ "learning_rate": 2.7032083420597e-05,
5906
+ "loss": 2.2111,
5907
+ "step": 838
5908
+ },
5909
+ {
5910
+ "epoch": 0.7636818750711116,
5911
+ "grad_norm": 0.5037781000137329,
5912
+ "learning_rate": 2.683512482635281e-05,
5913
+ "loss": 2.1824,
5914
+ "step": 839
5915
+ },
5916
+ {
5917
+ "epoch": 0.7645921037660712,
5918
+ "grad_norm": 0.5097115635871887,
5919
+ "learning_rate": 2.6638775132594553e-05,
5920
+ "loss": 2.2818,
5921
+ "step": 840
5922
+ },
5923
+ {
5924
+ "epoch": 0.7655023324610308,
5925
+ "grad_norm": 0.5003491640090942,
5926
+ "learning_rate": 2.6443035973404496e-05,
5927
+ "loss": 2.112,
5928
+ "step": 841
5929
+ },
5930
+ {
5931
+ "epoch": 0.7664125611559904,
5932
+ "grad_norm": 0.5198303461074829,
5933
+ "learning_rate": 2.624790897778391e-05,
5934
+ "loss": 2.1864,
5935
+ "step": 842
5936
+ },
5937
+ {
5938
+ "epoch": 0.76732278985095,
5939
+ "grad_norm": 0.5522372722625732,
5940
+ "learning_rate": 2.605339576963929e-05,
5941
+ "loss": 2.3857,
5942
+ "step": 843
5943
+ },
5944
+ {
5945
+ "epoch": 0.7682330185459096,
5946
+ "grad_norm": 0.5393935441970825,
5947
+ "learning_rate": 2.585949796776912e-05,
5948
+ "loss": 2.2549,
5949
+ "step": 844
5950
+ },
5951
+ {
5952
+ "epoch": 0.7691432472408692,
5953
+ "grad_norm": 0.573794424533844,
5954
+ "learning_rate": 2.5666217185850262e-05,
5955
+ "loss": 2.3236,
5956
+ "step": 845
5957
+ },
5958
+ {
5959
+ "epoch": 0.7700534759358288,
5960
+ "grad_norm": 0.5689824819564819,
5961
+ "learning_rate": 2.5473555032424533e-05,
5962
+ "loss": 2.1463,
5963
+ "step": 846
5964
+ },
5965
+ {
5966
+ "epoch": 0.7709637046307884,
5967
+ "grad_norm": 0.6545232534408569,
5968
+ "learning_rate": 2.528151311088537e-05,
5969
+ "loss": 2.3964,
5970
+ "step": 847
5971
+ },
5972
+ {
5973
+ "epoch": 0.771873933325748,
5974
+ "grad_norm": 0.7613667845726013,
5975
+ "learning_rate": 2.50900930194644e-05,
5976
+ "loss": 2.7365,
5977
+ "step": 848
5978
+ },
5979
+ {
5980
+ "epoch": 0.7727841620207077,
5981
+ "grad_norm": 0.8592699766159058,
5982
+ "learning_rate": 2.4899296351218227e-05,
5983
+ "loss": 2.3281,
5984
+ "step": 849
5985
+ },
5986
+ {
5987
+ "epoch": 0.7736943907156673,
5988
+ "grad_norm": 1.6767549514770508,
5989
+ "learning_rate": 2.4709124694015116e-05,
5990
+ "loss": 2.4329,
5991
+ "step": 850
5992
+ },
5993
+ {
5994
+ "epoch": 0.774604619410627,
5995
+ "grad_norm": 0.42721498012542725,
5996
+ "learning_rate": 2.451957963052185e-05,
5997
+ "loss": 2.4287,
5998
+ "step": 851
5999
+ },
6000
+ {
6001
+ "epoch": 0.7755148481055866,
6002
+ "grad_norm": 0.4105132818222046,
6003
+ "learning_rate": 2.433066273819037e-05,
6004
+ "loss": 2.3069,
6005
+ "step": 852
6006
+ },
6007
+ {
6008
+ "epoch": 0.7764250768005462,
6009
+ "grad_norm": 0.42730897665023804,
6010
+ "learning_rate": 2.4142375589244957e-05,
6011
+ "loss": 2.3786,
6012
+ "step": 853
6013
+ },
6014
+ {
6015
+ "epoch": 0.7773353054955058,
6016
+ "grad_norm": 0.41130363941192627,
6017
+ "learning_rate": 2.3954719750668907e-05,
6018
+ "loss": 2.1378,
6019
+ "step": 854
6020
+ },
6021
+ {
6022
+ "epoch": 0.7782455341904654,
6023
+ "grad_norm": 0.41424882411956787,
6024
+ "learning_rate": 2.3767696784191463e-05,
6025
+ "loss": 2.2526,
6026
+ "step": 855
6027
+ },
6028
+ {
6029
+ "epoch": 0.779155762885425,
6030
+ "grad_norm": 0.42201122641563416,
6031
+ "learning_rate": 2.3581308246275103e-05,
6032
+ "loss": 2.3379,
6033
+ "step": 856
6034
+ },
6035
+ {
6036
+ "epoch": 0.7800659915803846,
6037
+ "grad_norm": 0.4150107204914093,
6038
+ "learning_rate": 2.339555568810221e-05,
6039
+ "loss": 2.1722,
6040
+ "step": 857
6041
+ },
6042
+ {
6043
+ "epoch": 0.7809762202753442,
6044
+ "grad_norm": 0.432271271944046,
6045
+ "learning_rate": 2.321044065556246e-05,
6046
+ "loss": 2.4875,
6047
+ "step": 858
6048
+ },
6049
+ {
6050
+ "epoch": 0.7818864489703038,
6051
+ "grad_norm": 0.4255993068218231,
6052
+ "learning_rate": 2.302596468923981e-05,
6053
+ "loss": 2.3043,
6054
+ "step": 859
6055
+ },
6056
+ {
6057
+ "epoch": 0.7827966776652634,
6058
+ "grad_norm": 0.4193149507045746,
6059
+ "learning_rate": 2.284212932439972e-05,
6060
+ "loss": 2.3238,
6061
+ "step": 860
6062
+ },
6063
+ {
6064
+ "epoch": 0.783706906360223,
6065
+ "grad_norm": 0.3979727625846863,
6066
+ "learning_rate": 2.265893609097637e-05,
6067
+ "loss": 2.0908,
6068
+ "step": 861
6069
+ },
6070
+ {
6071
+ "epoch": 0.7846171350551826,
6072
+ "grad_norm": 0.42481502890586853,
6073
+ "learning_rate": 2.247638651355991e-05,
6074
+ "loss": 2.3404,
6075
+ "step": 862
6076
+ },
6077
+ {
6078
+ "epoch": 0.7855273637501422,
6079
+ "grad_norm": 0.41932496428489685,
6080
+ "learning_rate": 2.229448211138382e-05,
6081
+ "loss": 2.3529,
6082
+ "step": 863
6083
+ },
6084
+ {
6085
+ "epoch": 0.7864375924451018,
6086
+ "grad_norm": 0.4188045263290405,
6087
+ "learning_rate": 2.211322439831218e-05,
6088
+ "loss": 2.1973,
6089
+ "step": 864
6090
+ },
6091
+ {
6092
+ "epoch": 0.7873478211400614,
6093
+ "grad_norm": 0.41575223207473755,
6094
+ "learning_rate": 2.1932614882827197e-05,
6095
+ "loss": 2.2664,
6096
+ "step": 865
6097
+ },
6098
+ {
6099
+ "epoch": 0.788258049835021,
6100
+ "grad_norm": 0.41103559732437134,
6101
+ "learning_rate": 2.1752655068016515e-05,
6102
+ "loss": 2.1176,
6103
+ "step": 866
6104
+ },
6105
+ {
6106
+ "epoch": 0.7891682785299806,
6107
+ "grad_norm": 0.3994426727294922,
6108
+ "learning_rate": 2.1573346451560794e-05,
6109
+ "loss": 2.0824,
6110
+ "step": 867
6111
+ },
6112
+ {
6113
+ "epoch": 0.7900785072249402,
6114
+ "grad_norm": 0.40480148792266846,
6115
+ "learning_rate": 2.139469052572127e-05,
6116
+ "loss": 1.9797,
6117
+ "step": 868
6118
+ },
6119
+ {
6120
+ "epoch": 0.7909887359198998,
6121
+ "grad_norm": 0.4224672317504883,
6122
+ "learning_rate": 2.1216688777327154e-05,
6123
+ "loss": 2.0783,
6124
+ "step": 869
6125
+ },
6126
+ {
6127
+ "epoch": 0.7918989646148595,
6128
+ "grad_norm": 0.4260886013507843,
6129
+ "learning_rate": 2.1039342687763586e-05,
6130
+ "loss": 2.203,
6131
+ "step": 870
6132
+ },
6133
+ {
6134
+ "epoch": 0.7928091933098191,
6135
+ "grad_norm": 0.41183462738990784,
6136
+ "learning_rate": 2.0862653732958915e-05,
6137
+ "loss": 1.9724,
6138
+ "step": 871
6139
+ },
6140
+ {
6141
+ "epoch": 0.7937194220047787,
6142
+ "grad_norm": 0.43447592854499817,
6143
+ "learning_rate": 2.0686623383372715e-05,
6144
+ "loss": 2.1632,
6145
+ "step": 872
6146
+ },
6147
+ {
6148
+ "epoch": 0.7946296506997383,
6149
+ "grad_norm": 0.4297522008419037,
6150
+ "learning_rate": 2.051125310398353e-05,
6151
+ "loss": 2.0486,
6152
+ "step": 873
6153
+ },
6154
+ {
6155
+ "epoch": 0.795539879394698,
6156
+ "grad_norm": 0.45072224736213684,
6157
+ "learning_rate": 2.03365443542764e-05,
6158
+ "loss": 2.1973,
6159
+ "step": 874
6160
+ },
6161
+ {
6162
+ "epoch": 0.7964501080896575,
6163
+ "grad_norm": 0.4462050199508667,
6164
+ "learning_rate": 2.016249858823106e-05,
6165
+ "loss": 2.0274,
6166
+ "step": 875
6167
+ },
6168
+ {
6169
+ "epoch": 0.7973603367846172,
6170
+ "grad_norm": 0.4606810212135315,
6171
+ "learning_rate": 1.998911725430963e-05,
6172
+ "loss": 2.1616,
6173
+ "step": 876
6174
+ },
6175
+ {
6176
+ "epoch": 0.7982705654795768,
6177
+ "grad_norm": 0.44487303495407104,
6178
+ "learning_rate": 1.981640179544466e-05,
6179
+ "loss": 2.323,
6180
+ "step": 877
6181
+ },
6182
+ {
6183
+ "epoch": 0.7991807941745364,
6184
+ "grad_norm": 0.45202627778053284,
6185
+ "learning_rate": 1.964435364902705e-05,
6186
+ "loss": 2.1361,
6187
+ "step": 878
6188
+ },
6189
+ {
6190
+ "epoch": 0.800091022869496,
6191
+ "grad_norm": 0.44588690996170044,
6192
+ "learning_rate": 1.947297424689414e-05,
6193
+ "loss": 2.1173,
6194
+ "step": 879
6195
+ },
6196
+ {
6197
+ "epoch": 0.8010012515644556,
6198
+ "grad_norm": 0.46819573640823364,
6199
+ "learning_rate": 1.93022650153178e-05,
6200
+ "loss": 2.0187,
6201
+ "step": 880
6202
+ },
6203
+ {
6204
+ "epoch": 0.8019114802594152,
6205
+ "grad_norm": 0.44944408535957336,
6206
+ "learning_rate": 1.913222737499243e-05,
6207
+ "loss": 2.0103,
6208
+ "step": 881
6209
+ },
6210
+ {
6211
+ "epoch": 0.8028217089543748,
6212
+ "grad_norm": 0.44194296002388,
6213
+ "learning_rate": 1.8962862741023423e-05,
6214
+ "loss": 1.9489,
6215
+ "step": 882
6216
+ },
6217
+ {
6218
+ "epoch": 0.8037319376493344,
6219
+ "grad_norm": 0.4707835614681244,
6220
+ "learning_rate": 1.879417252291502e-05,
6221
+ "loss": 2.1982,
6222
+ "step": 883
6223
+ },
6224
+ {
6225
+ "epoch": 0.804642166344294,
6226
+ "grad_norm": 0.4707585573196411,
6227
+ "learning_rate": 1.8626158124558858e-05,
6228
+ "loss": 2.1049,
6229
+ "step": 884
6230
+ },
6231
+ {
6232
+ "epoch": 0.8055523950392536,
6233
+ "grad_norm": 0.4964425265789032,
6234
+ "learning_rate": 1.8458820944222255e-05,
6235
+ "loss": 2.2127,
6236
+ "step": 885
6237
+ },
6238
+ {
6239
+ "epoch": 0.8064626237342132,
6240
+ "grad_norm": 0.4742617607116699,
6241
+ "learning_rate": 1.829216237453637e-05,
6242
+ "loss": 2.1019,
6243
+ "step": 886
6244
+ },
6245
+ {
6246
+ "epoch": 0.8073728524291728,
6247
+ "grad_norm": 0.49655184149742126,
6248
+ "learning_rate": 1.8126183802484865e-05,
6249
+ "loss": 2.2403,
6250
+ "step": 887
6251
+ },
6252
+ {
6253
+ "epoch": 0.8082830811241324,
6254
+ "grad_norm": 0.4954749643802643,
6255
+ "learning_rate": 1.7960886609392214e-05,
6256
+ "loss": 2.0321,
6257
+ "step": 888
6258
+ },
6259
+ {
6260
+ "epoch": 0.8091933098190921,
6261
+ "grad_norm": 0.4694468379020691,
6262
+ "learning_rate": 1.7796272170912253e-05,
6263
+ "loss": 1.817,
6264
+ "step": 889
6265
+ },
6266
+ {
6267
+ "epoch": 0.8101035385140517,
6268
+ "grad_norm": 0.5026715397834778,
6269
+ "learning_rate": 1.763234185701673e-05,
6270
+ "loss": 2.2038,
6271
+ "step": 890
6272
+ },
6273
+ {
6274
+ "epoch": 0.8110137672090113,
6275
+ "grad_norm": 0.5050073862075806,
6276
+ "learning_rate": 1.7469097031983893e-05,
6277
+ "loss": 2.0861,
6278
+ "step": 891
6279
+ },
6280
+ {
6281
+ "epoch": 0.8119239959039709,
6282
+ "grad_norm": 0.5078185796737671,
6283
+ "learning_rate": 1.730653905438714e-05,
6284
+ "loss": 2.0672,
6285
+ "step": 892
6286
+ },
6287
+ {
6288
+ "epoch": 0.8128342245989305,
6289
+ "grad_norm": 0.525215744972229,
6290
+ "learning_rate": 1.7144669277083712e-05,
6291
+ "loss": 2.1502,
6292
+ "step": 893
6293
+ },
6294
+ {
6295
+ "epoch": 0.8137444532938901,
6296
+ "grad_norm": 0.5429519414901733,
6297
+ "learning_rate": 1.6983489047203483e-05,
6298
+ "loss": 2.0935,
6299
+ "step": 894
6300
+ },
6301
+ {
6302
+ "epoch": 0.8146546819888497,
6303
+ "grad_norm": 0.5544317960739136,
6304
+ "learning_rate": 1.6822999706137567e-05,
6305
+ "loss": 2.0943,
6306
+ "step": 895
6307
+ },
6308
+ {
6309
+ "epoch": 0.8155649106838093,
6310
+ "grad_norm": 0.6273201107978821,
6311
+ "learning_rate": 1.6663202589527473e-05,
6312
+ "loss": 2.3608,
6313
+ "step": 896
6314
+ },
6315
+ {
6316
+ "epoch": 0.8164751393787689,
6317
+ "grad_norm": 0.7101454734802246,
6318
+ "learning_rate": 1.6504099027253706e-05,
6319
+ "loss": 2.4168,
6320
+ "step": 897
6321
+ },
6322
+ {
6323
+ "epoch": 0.8173853680737285,
6324
+ "grad_norm": 0.7550842761993408,
6325
+ "learning_rate": 1.634569034342476e-05,
6326
+ "loss": 2.5798,
6327
+ "step": 898
6328
+ },
6329
+ {
6330
+ "epoch": 0.8182955967686881,
6331
+ "grad_norm": 0.8533863425254822,
6332
+ "learning_rate": 1.6187977856366253e-05,
6333
+ "loss": 2.5575,
6334
+ "step": 899
6335
+ },
6336
+ {
6337
+ "epoch": 0.8192058254636477,
6338
+ "grad_norm": 1.34774911403656,
6339
+ "learning_rate": 1.6030962878609725e-05,
6340
+ "loss": 2.4134,
6341
+ "step": 900
6342
+ },
6343
+ {
6344
+ "epoch": 0.8201160541586073,
6345
+ "grad_norm": 0.4584032893180847,
6346
+ "learning_rate": 1.587464671688187e-05,
6347
+ "loss": 2.4781,
6348
+ "step": 901
6349
+ },
6350
+ {
6351
+ "epoch": 0.8210262828535669,
6352
+ "grad_norm": 0.43342748284339905,
6353
+ "learning_rate": 1.5719030672093717e-05,
6354
+ "loss": 2.3685,
6355
+ "step": 902
6356
+ },
6357
+ {
6358
+ "epoch": 0.8219365115485265,
6359
+ "grad_norm": 0.4225307106971741,
6360
+ "learning_rate": 1.5564116039329545e-05,
6361
+ "loss": 2.2022,
6362
+ "step": 903
6363
+ },
6364
+ {
6365
+ "epoch": 0.8228467402434861,
6366
+ "grad_norm": 0.43026039004325867,
6367
+ "learning_rate": 1.5409904107836358e-05,
6368
+ "loss": 2.2817,
6369
+ "step": 904
6370
+ },
6371
+ {
6372
+ "epoch": 0.8237569689384457,
6373
+ "grad_norm": 0.4114493131637573,
6374
+ "learning_rate": 1.5256396161013075e-05,
6375
+ "loss": 2.3298,
6376
+ "step": 905
6377
+ },
6378
+ {
6379
+ "epoch": 0.8246671976334053,
6380
+ "grad_norm": 0.42313718795776367,
6381
+ "learning_rate": 1.5103593476399791e-05,
6382
+ "loss": 2.3211,
6383
+ "step": 906
6384
+ },
6385
+ {
6386
+ "epoch": 0.825577426328365,
6387
+ "grad_norm": 0.4246841371059418,
6388
+ "learning_rate": 1.495149732566723e-05,
6389
+ "loss": 2.2385,
6390
+ "step": 907
6391
+ },
6392
+ {
6393
+ "epoch": 0.8264876550233247,
6394
+ "grad_norm": 0.4131985008716583,
6395
+ "learning_rate": 1.4800108974606119e-05,
6396
+ "loss": 2.2873,
6397
+ "step": 908
6398
+ },
6399
+ {
6400
+ "epoch": 0.8273978837182843,
6401
+ "grad_norm": 0.42265599966049194,
6402
+ "learning_rate": 1.4649429683116644e-05,
6403
+ "loss": 2.1486,
6404
+ "step": 909
6405
+ },
6406
+ {
6407
+ "epoch": 0.8283081124132439,
6408
+ "grad_norm": 0.4338424801826477,
6409
+ "learning_rate": 1.4499460705197998e-05,
6410
+ "loss": 2.2365,
6411
+ "step": 910
6412
+ },
6413
+ {
6414
+ "epoch": 0.8292183411082035,
6415
+ "grad_norm": 0.4278540015220642,
6416
+ "learning_rate": 1.4350203288937936e-05,
6417
+ "loss": 2.36,
6418
+ "step": 911
6419
+ },
6420
+ {
6421
+ "epoch": 0.8301285698031631,
6422
+ "grad_norm": 0.41379448771476746,
6423
+ "learning_rate": 1.4201658676502294e-05,
6424
+ "loss": 2.184,
6425
+ "step": 912
6426
+ },
6427
+ {
6428
+ "epoch": 0.8310387984981227,
6429
+ "grad_norm": 0.42351198196411133,
6430
+ "learning_rate": 1.4053828104124867e-05,
6431
+ "loss": 2.2505,
6432
+ "step": 913
6433
+ },
6434
+ {
6435
+ "epoch": 0.8319490271930823,
6436
+ "grad_norm": 0.40783679485321045,
6437
+ "learning_rate": 1.3906712802096933e-05,
6438
+ "loss": 2.0255,
6439
+ "step": 914
6440
+ },
6441
+ {
6442
+ "epoch": 0.8328592558880419,
6443
+ "grad_norm": 0.4174416661262512,
6444
+ "learning_rate": 1.3760313994757001e-05,
6445
+ "loss": 2.2376,
6446
+ "step": 915
6447
+ },
6448
+ {
6449
+ "epoch": 0.8337694845830015,
6450
+ "grad_norm": 0.41884645819664,
6451
+ "learning_rate": 1.361463290048085e-05,
6452
+ "loss": 2.0206,
6453
+ "step": 916
6454
+ },
6455
+ {
6456
+ "epoch": 0.8346797132779611,
6457
+ "grad_norm": 0.399498850107193,
6458
+ "learning_rate": 1.3469670731671046e-05,
6459
+ "loss": 2.063,
6460
+ "step": 917
6461
+ },
6462
+ {
6463
+ "epoch": 0.8355899419729207,
6464
+ "grad_norm": 0.40431055426597595,
6465
+ "learning_rate": 1.3325428694747177e-05,
6466
+ "loss": 2.0053,
6467
+ "step": 918
6468
+ },
6469
+ {
6470
+ "epoch": 0.8365001706678803,
6471
+ "grad_norm": 0.40479356050491333,
6472
+ "learning_rate": 1.3181907990135622e-05,
6473
+ "loss": 2.0693,
6474
+ "step": 919
6475
+ },
6476
+ {
6477
+ "epoch": 0.8374103993628399,
6478
+ "grad_norm": 0.4056653678417206,
6479
+ "learning_rate": 1.3039109812259598e-05,
6480
+ "loss": 2.0361,
6481
+ "step": 920
6482
+ },
6483
+ {
6484
+ "epoch": 0.8383206280577995,
6485
+ "grad_norm": 0.4257088005542755,
6486
+ "learning_rate": 1.2897035349529263e-05,
6487
+ "loss": 2.0589,
6488
+ "step": 921
6489
+ },
6490
+ {
6491
+ "epoch": 0.8392308567527591,
6492
+ "grad_norm": 0.43024080991744995,
6493
+ "learning_rate": 1.2755685784331783e-05,
6494
+ "loss": 2.0419,
6495
+ "step": 922
6496
+ },
6497
+ {
6498
+ "epoch": 0.8401410854477187,
6499
+ "grad_norm": 0.42889195680618286,
6500
+ "learning_rate": 1.2615062293021507e-05,
6501
+ "loss": 2.0515,
6502
+ "step": 923
6503
+ },
6504
+ {
6505
+ "epoch": 0.8410513141426783,
6506
+ "grad_norm": 0.4491952061653137,
6507
+ "learning_rate": 1.2475166045910159e-05,
6508
+ "loss": 2.2535,
6509
+ "step": 924
6510
+ },
6511
+ {
6512
+ "epoch": 0.8419615428376379,
6513
+ "grad_norm": 0.43797358870506287,
6514
+ "learning_rate": 1.2335998207257137e-05,
6515
+ "loss": 2.1338,
6516
+ "step": 925
6517
+ },
6518
+ {
6519
+ "epoch": 0.8428717715325975,
6520
+ "grad_norm": 0.4491622745990753,
6521
+ "learning_rate": 1.2197559935259795e-05,
6522
+ "loss": 2.2059,
6523
+ "step": 926
6524
+ },
6525
+ {
6526
+ "epoch": 0.8437820002275572,
6527
+ "grad_norm": 0.43628188967704773,
6528
+ "learning_rate": 1.20598523820438e-05,
6529
+ "loss": 1.8784,
6530
+ "step": 927
6531
+ },
6532
+ {
6533
+ "epoch": 0.8446922289225168,
6534
+ "grad_norm": 0.45739004015922546,
6535
+ "learning_rate": 1.1922876693653585e-05,
6536
+ "loss": 2.0433,
6537
+ "step": 928
6538
+ },
6539
+ {
6540
+ "epoch": 0.8456024576174764,
6541
+ "grad_norm": 0.44873446226119995,
6542
+ "learning_rate": 1.1786634010042719e-05,
6543
+ "loss": 1.9578,
6544
+ "step": 929
6545
+ },
6546
+ {
6547
+ "epoch": 0.846512686312436,
6548
+ "grad_norm": 0.43957433104515076,
6549
+ "learning_rate": 1.1651125465064516e-05,
6550
+ "loss": 2.0078,
6551
+ "step": 930
6552
+ },
6553
+ {
6554
+ "epoch": 0.8474229150073956,
6555
+ "grad_norm": 0.4639342129230499,
6556
+ "learning_rate": 1.1516352186462586e-05,
6557
+ "loss": 2.0714,
6558
+ "step": 931
6559
+ },
6560
+ {
6561
+ "epoch": 0.8483331437023552,
6562
+ "grad_norm": 0.44638022780418396,
6563
+ "learning_rate": 1.13823152958614e-05,
6564
+ "loss": 1.8991,
6565
+ "step": 932
6566
+ },
6567
+ {
6568
+ "epoch": 0.8492433723973148,
6569
+ "grad_norm": 0.4596819579601288,
6570
+ "learning_rate": 1.1249015908756998e-05,
6571
+ "loss": 1.9595,
6572
+ "step": 933
6573
+ },
6574
+ {
6575
+ "epoch": 0.8501536010922744,
6576
+ "grad_norm": 0.47656434774398804,
6577
+ "learning_rate": 1.1116455134507664e-05,
6578
+ "loss": 2.0788,
6579
+ "step": 934
6580
+ },
6581
+ {
6582
+ "epoch": 0.851063829787234,
6583
+ "grad_norm": 0.4645254611968994,
6584
+ "learning_rate": 1.098463407632474e-05,
6585
+ "loss": 2.0703,
6586
+ "step": 935
6587
+ },
6588
+ {
6589
+ "epoch": 0.8519740584821937,
6590
+ "grad_norm": 0.4659541845321655,
6591
+ "learning_rate": 1.0853553831263418e-05,
6592
+ "loss": 2.0804,
6593
+ "step": 936
6594
+ },
6595
+ {
6596
+ "epoch": 0.8528842871771533,
6597
+ "grad_norm": 0.4771886467933655,
6598
+ "learning_rate": 1.0723215490213634e-05,
6599
+ "loss": 2.1124,
6600
+ "step": 937
6601
+ },
6602
+ {
6603
+ "epoch": 0.8537945158721129,
6604
+ "grad_norm": 0.49211612343788147,
6605
+ "learning_rate": 1.0593620137890948e-05,
6606
+ "loss": 2.2221,
6607
+ "step": 938
6608
+ },
6609
+ {
6610
+ "epoch": 0.8547047445670725,
6611
+ "grad_norm": 0.5174618363380432,
6612
+ "learning_rate": 1.0464768852827545e-05,
6613
+ "loss": 2.1684,
6614
+ "step": 939
6615
+ },
6616
+ {
6617
+ "epoch": 0.8556149732620321,
6618
+ "grad_norm": 0.5098733305931091,
6619
+ "learning_rate": 1.0336662707363287e-05,
6620
+ "loss": 2.103,
6621
+ "step": 940
6622
+ },
6623
+ {
6624
+ "epoch": 0.8565252019569917,
6625
+ "grad_norm": 0.5197715163230896,
6626
+ "learning_rate": 1.0209302767636664e-05,
6627
+ "loss": 2.2107,
6628
+ "step": 941
6629
+ },
6630
+ {
6631
+ "epoch": 0.8574354306519513,
6632
+ "grad_norm": 0.547512412071228,
6633
+ "learning_rate": 1.0082690093576163e-05,
6634
+ "loss": 2.2448,
6635
+ "step": 942
6636
+ },
6637
+ {
6638
+ "epoch": 0.8583456593469109,
6639
+ "grad_norm": 0.5418568849563599,
6640
+ "learning_rate": 9.95682573889114e-06,
6641
+ "loss": 2.2423,
6642
+ "step": 943
6643
+ },
6644
+ {
6645
+ "epoch": 0.8592558880418705,
6646
+ "grad_norm": 0.5369839072227478,
6647
+ "learning_rate": 9.831710751063283e-06,
6648
+ "loss": 1.9788,
6649
+ "step": 944
6650
+ },
6651
+ {
6652
+ "epoch": 0.8601661167368301,
6653
+ "grad_norm": 0.573844313621521,
6654
+ "learning_rate": 9.707346171337894e-06,
6655
+ "loss": 2.2906,
6656
+ "step": 945
6657
+ },
6658
+ {
6659
+ "epoch": 0.8610763454317898,
6660
+ "grad_norm": 0.6142247915267944,
6661
+ "learning_rate": 9.583733034714981e-06,
6662
+ "loss": 2.3744,
6663
+ "step": 946
6664
+ },
6665
+ {
6666
+ "epoch": 0.8619865741267494,
6667
+ "grad_norm": 0.6646602153778076,
6668
+ "learning_rate": 9.460872369940955e-06,
6669
+ "loss": 2.4641,
6670
+ "step": 947
6671
+ },
6672
+ {
6673
+ "epoch": 0.862896802821709,
6674
+ "grad_norm": 0.727783739566803,
6675
+ "learning_rate": 9.338765199499854e-06,
6676
+ "loss": 2.4612,
6677
+ "step": 948
6678
+ },
6679
+ {
6680
+ "epoch": 0.8638070315166686,
6681
+ "grad_norm": 0.851578950881958,
6682
+ "learning_rate": 9.217412539604942e-06,
6683
+ "loss": 2.6441,
6684
+ "step": 949
6685
+ },
6686
+ {
6687
+ "epoch": 0.8647172602116282,
6688
+ "grad_norm": 1.461125373840332,
6689
+ "learning_rate": 9.096815400190172e-06,
6690
+ "loss": 2.4248,
6691
+ "step": 950
6692
+ },
6693
+ {
6694
+ "epoch": 0.8656274889065878,
6695
+ "grad_norm": 0.4408392608165741,
6696
+ "learning_rate": 8.97697478490188e-06,
6697
+ "loss": 2.5431,
6698
+ "step": 951
6699
+ },
6700
+ {
6701
+ "epoch": 0.8665377176015474,
6702
+ "grad_norm": 0.4102359414100647,
6703
+ "learning_rate": 8.857891691090337e-06,
6704
+ "loss": 2.3448,
6705
+ "step": 952
6706
+ },
6707
+ {
6708
+ "epoch": 0.867447946296507,
6709
+ "grad_norm": 0.4374777674674988,
6710
+ "learning_rate": 8.739567109801494e-06,
6711
+ "loss": 2.3647,
6712
+ "step": 953
6713
+ },
6714
+ {
6715
+ "epoch": 0.8683581749914666,
6716
+ "grad_norm": 0.40009114146232605,
6717
+ "learning_rate": 8.62200202576875e-06,
6718
+ "loss": 2.2401,
6719
+ "step": 954
6720
+ },
6721
+ {
6722
+ "epoch": 0.8692684036864262,
6723
+ "grad_norm": 0.42013484239578247,
6724
+ "learning_rate": 8.505197417404687e-06,
6725
+ "loss": 2.1772,
6726
+ "step": 955
6727
+ },
6728
+ {
6729
+ "epoch": 0.8701786323813858,
6730
+ "grad_norm": 0.43588119745254517,
6731
+ "learning_rate": 8.38915425679304e-06,
6732
+ "loss": 2.4605,
6733
+ "step": 956
6734
+ },
6735
+ {
6736
+ "epoch": 0.8710888610763454,
6737
+ "grad_norm": 0.4295041561126709,
6738
+ "learning_rate": 8.273873509680519e-06,
6739
+ "loss": 2.4302,
6740
+ "step": 957
6741
+ },
6742
+ {
6743
+ "epoch": 0.871999089771305,
6744
+ "grad_norm": 0.4430733621120453,
6745
+ "learning_rate": 8.15935613546872e-06,
6746
+ "loss": 2.3014,
6747
+ "step": 958
6748
+ },
6749
+ {
6750
+ "epoch": 0.8729093184662646,
6751
+ "grad_norm": 0.4275224804878235,
6752
+ "learning_rate": 8.045603087206388e-06,
6753
+ "loss": 2.251,
6754
+ "step": 959
6755
+ },
6756
+ {
6757
+ "epoch": 0.8738195471612242,
6758
+ "grad_norm": 0.4218734800815582,
6759
+ "learning_rate": 7.932615311581126e-06,
6760
+ "loss": 2.2841,
6761
+ "step": 960
6762
+ },
6763
+ {
6764
+ "epoch": 0.8747297758561838,
6765
+ "grad_norm": 0.4275785982608795,
6766
+ "learning_rate": 7.820393748911791e-06,
6767
+ "loss": 2.2751,
6768
+ "step": 961
6769
+ },
6770
+ {
6771
+ "epoch": 0.8756400045511434,
6772
+ "grad_norm": 0.40714067220687866,
6773
+ "learning_rate": 7.708939333140642e-06,
6774
+ "loss": 2.2023,
6775
+ "step": 962
6776
+ },
6777
+ {
6778
+ "epoch": 0.876550233246103,
6779
+ "grad_norm": 0.4284750521183014,
6780
+ "learning_rate": 7.598252991825372e-06,
6781
+ "loss": 2.1991,
6782
+ "step": 963
6783
+ },
6784
+ {
6785
+ "epoch": 0.8774604619410626,
6786
+ "grad_norm": 0.40348193049430847,
6787
+ "learning_rate": 7.488335646131628e-06,
6788
+ "loss": 2.1214,
6789
+ "step": 964
6790
+ },
6791
+ {
6792
+ "epoch": 0.8783706906360224,
6793
+ "grad_norm": 0.4067203998565674,
6794
+ "learning_rate": 7.3791882108251945e-06,
6795
+ "loss": 2.0977,
6796
+ "step": 965
6797
+ },
6798
+ {
6799
+ "epoch": 0.879280919330982,
6800
+ "grad_norm": 0.40969371795654297,
6801
+ "learning_rate": 7.270811594264437e-06,
6802
+ "loss": 2.1751,
6803
+ "step": 966
6804
+ },
6805
+ {
6806
+ "epoch": 0.8801911480259416,
6807
+ "grad_norm": 0.39071908593177795,
6808
+ "learning_rate": 7.163206698392744e-06,
6809
+ "loss": 2.0464,
6810
+ "step": 967
6811
+ },
6812
+ {
6813
+ "epoch": 0.8811013767209012,
6814
+ "grad_norm": 0.4038424789905548,
6815
+ "learning_rate": 7.056374418730971e-06,
6816
+ "loss": 2.1137,
6817
+ "step": 968
6818
+ },
6819
+ {
6820
+ "epoch": 0.8820116054158608,
6821
+ "grad_norm": 0.38801443576812744,
6822
+ "learning_rate": 6.950315644370075e-06,
6823
+ "loss": 1.883,
6824
+ "step": 969
6825
+ },
6826
+ {
6827
+ "epoch": 0.8829218341108204,
6828
+ "grad_norm": 0.3895006477832794,
6829
+ "learning_rate": 6.845031257963619e-06,
6830
+ "loss": 2.0169,
6831
+ "step": 970
6832
+ },
6833
+ {
6834
+ "epoch": 0.88383206280578,
6835
+ "grad_norm": 0.413171648979187,
6836
+ "learning_rate": 6.740522135720517e-06,
6837
+ "loss": 2.2054,
6838
+ "step": 971
6839
+ },
6840
+ {
6841
+ "epoch": 0.8847422915007396,
6842
+ "grad_norm": 0.4204188585281372,
6843
+ "learning_rate": 6.636789147397637e-06,
6844
+ "loss": 2.1765,
6845
+ "step": 972
6846
+ },
6847
+ {
6848
+ "epoch": 0.8856525201956992,
6849
+ "grad_norm": 0.4209098517894745,
6850
+ "learning_rate": 6.533833156292679e-06,
6851
+ "loss": 1.9617,
6852
+ "step": 973
6853
+ },
6854
+ {
6855
+ "epoch": 0.8865627488906588,
6856
+ "grad_norm": 0.4256611168384552,
6857
+ "learning_rate": 6.431655019236948e-06,
6858
+ "loss": 2.108,
6859
+ "step": 974
6860
+ },
6861
+ {
6862
+ "epoch": 0.8874729775856184,
6863
+ "grad_norm": 0.43669816851615906,
6864
+ "learning_rate": 6.3302555865880965e-06,
6865
+ "loss": 2.0991,
6866
+ "step": 975
6867
+ },
6868
+ {
6869
+ "epoch": 0.888383206280578,
6870
+ "grad_norm": 0.44833648204803467,
6871
+ "learning_rate": 6.229635702223324e-06,
6872
+ "loss": 2.2335,
6873
+ "step": 976
6874
+ },
6875
+ {
6876
+ "epoch": 0.8892934349755376,
6877
+ "grad_norm": 0.45070621371269226,
6878
+ "learning_rate": 6.129796203532057e-06,
6879
+ "loss": 2.2487,
6880
+ "step": 977
6881
+ },
6882
+ {
6883
+ "epoch": 0.8902036636704972,
6884
+ "grad_norm": 0.4609052538871765,
6885
+ "learning_rate": 6.030737921409169e-06,
6886
+ "loss": 2.1147,
6887
+ "step": 978
6888
+ },
6889
+ {
6890
+ "epoch": 0.8911138923654568,
6891
+ "grad_norm": 0.4470416307449341,
6892
+ "learning_rate": 5.932461680248014e-06,
6893
+ "loss": 2.0615,
6894
+ "step": 979
6895
+ },
6896
+ {
6897
+ "epoch": 0.8920241210604164,
6898
+ "grad_norm": 0.42171233892440796,
6899
+ "learning_rate": 5.834968297933541e-06,
6900
+ "loss": 2.0669,
6901
+ "step": 980
6902
+ },
6903
+ {
6904
+ "epoch": 0.892934349755376,
6905
+ "grad_norm": 0.4385877251625061,
6906
+ "learning_rate": 5.738258585835532e-06,
6907
+ "loss": 1.9846,
6908
+ "step": 981
6909
+ },
6910
+ {
6911
+ "epoch": 0.8938445784503356,
6912
+ "grad_norm": 0.4574371576309204,
6913
+ "learning_rate": 5.6423333488018095e-06,
6914
+ "loss": 2.114,
6915
+ "step": 982
6916
+ },
6917
+ {
6918
+ "epoch": 0.8947548071452952,
6919
+ "grad_norm": 0.46896499395370483,
6920
+ "learning_rate": 5.547193385151561e-06,
6921
+ "loss": 2.0444,
6922
+ "step": 983
6923
+ },
6924
+ {
6925
+ "epoch": 0.8956650358402549,
6926
+ "grad_norm": 0.45737412571907043,
6927
+ "learning_rate": 5.45283948666866e-06,
6928
+ "loss": 2.0976,
6929
+ "step": 984
6930
+ },
6931
+ {
6932
+ "epoch": 0.8965752645352145,
6933
+ "grad_norm": 0.47739726305007935,
6934
+ "learning_rate": 5.359272438595153e-06,
6935
+ "loss": 2.1393,
6936
+ "step": 985
6937
+ },
6938
+ {
6939
+ "epoch": 0.8974854932301741,
6940
+ "grad_norm": 0.47124338150024414,
6941
+ "learning_rate": 5.266493019624663e-06,
6942
+ "loss": 2.0509,
6943
+ "step": 986
6944
+ },
6945
+ {
6946
+ "epoch": 0.8983957219251337,
6947
+ "grad_norm": 0.4660322070121765,
6948
+ "learning_rate": 5.1745020018958866e-06,
6949
+ "loss": 1.9704,
6950
+ "step": 987
6951
+ },
6952
+ {
6953
+ "epoch": 0.8993059506200933,
6954
+ "grad_norm": 0.48330241441726685,
6955
+ "learning_rate": 5.083300150986259e-06,
6956
+ "loss": 2.021,
6957
+ "step": 988
6958
+ },
6959
+ {
6960
+ "epoch": 0.9002161793150529,
6961
+ "grad_norm": 0.51470547914505,
6962
+ "learning_rate": 4.992888225905468e-06,
6963
+ "loss": 2.1097,
6964
+ "step": 989
6965
+ },
6966
+ {
6967
+ "epoch": 0.9011264080100125,
6968
+ "grad_norm": 0.516373336315155,
6969
+ "learning_rate": 4.903266979089249e-06,
6970
+ "loss": 2.1694,
6971
+ "step": 990
6972
+ },
6973
+ {
6974
+ "epoch": 0.9020366367049721,
6975
+ "grad_norm": 0.5256400108337402,
6976
+ "learning_rate": 4.8144371563930476e-06,
6977
+ "loss": 2.2843,
6978
+ "step": 991
6979
+ },
6980
+ {
6981
+ "epoch": 0.9029468653999317,
6982
+ "grad_norm": 0.5559744238853455,
6983
+ "learning_rate": 4.726399497085832e-06,
6984
+ "loss": 2.2733,
6985
+ "step": 992
6986
+ },
6987
+ {
6988
+ "epoch": 0.9038570940948913,
6989
+ "grad_norm": 0.5462202429771423,
6990
+ "learning_rate": 4.6391547338439536e-06,
6991
+ "loss": 2.1758,
6992
+ "step": 993
6993
+ },
6994
+ {
6995
+ "epoch": 0.904767322789851,
6996
+ "grad_norm": 0.5769087672233582,
6997
+ "learning_rate": 4.552703592745033e-06,
6998
+ "loss": 2.2552,
6999
+ "step": 994
7000
+ },
7001
+ {
7002
+ "epoch": 0.9056775514848106,
7003
+ "grad_norm": 0.5632253289222717,
7004
+ "learning_rate": 4.467046793261931e-06,
7005
+ "loss": 2.2402,
7006
+ "step": 995
7007
+ },
7008
+ {
7009
+ "epoch": 0.9065877801797702,
7010
+ "grad_norm": 0.610163688659668,
7011
+ "learning_rate": 4.3821850482567595e-06,
7012
+ "loss": 2.4484,
7013
+ "step": 996
7014
+ },
7015
+ {
7016
+ "epoch": 0.9074980088747298,
7017
+ "grad_norm": 0.6236492395401001,
7018
+ "learning_rate": 4.298119063974914e-06,
7019
+ "loss": 2.1914,
7020
+ "step": 997
7021
+ },
7022
+ {
7023
+ "epoch": 0.9084082375696894,
7024
+ "grad_norm": 0.7362584471702576,
7025
+ "learning_rate": 4.214849540039267e-06,
7026
+ "loss": 2.5582,
7027
+ "step": 998
7028
+ },
7029
+ {
7030
+ "epoch": 0.909318466264649,
7031
+ "grad_norm": 0.8780522346496582,
7032
+ "learning_rate": 4.132377169444279e-06,
7033
+ "loss": 2.5269,
7034
+ "step": 999
7035
+ },
7036
+ {
7037
+ "epoch": 0.9102286949596086,
7038
+ "grad_norm": 1.4850975275039673,
7039
+ "learning_rate": 4.050702638550275e-06,
7040
+ "loss": 2.3857,
7041
+ "step": 1000
7042
+ },
7043
+ {
7044
+ "epoch": 0.9111389236545682,
7045
+ "grad_norm": 0.4350475072860718,
7046
+ "learning_rate": 3.969826627077655e-06,
7047
+ "loss": 2.5653,
7048
+ "step": 1001
7049
+ },
7050
+ {
7051
+ "epoch": 0.9120491523495278,
7052
+ "grad_norm": 0.44277626276016235,
7053
+ "learning_rate": 3.889749808101395e-06,
7054
+ "loss": 2.3969,
7055
+ "step": 1002
7056
+ },
7057
+ {
7058
+ "epoch": 0.9129593810444874,
7059
+ "grad_norm": 0.44005268812179565,
7060
+ "learning_rate": 3.810472848045266e-06,
7061
+ "loss": 2.6065,
7062
+ "step": 1003
7063
+ },
7064
+ {
7065
+ "epoch": 0.9138696097394471,
7066
+ "grad_norm": 0.41925248503685,
7067
+ "learning_rate": 3.7319964066763858e-06,
7068
+ "loss": 2.3878,
7069
+ "step": 1004
7070
+ },
7071
+ {
7072
+ "epoch": 0.9147798384344067,
7073
+ "grad_norm": 0.4320535957813263,
7074
+ "learning_rate": 3.6543211370997587e-06,
7075
+ "loss": 2.3829,
7076
+ "step": 1005
7077
+ },
7078
+ {
7079
+ "epoch": 0.9156900671293663,
7080
+ "grad_norm": 0.43817150592803955,
7081
+ "learning_rate": 3.5774476857527107e-06,
7082
+ "loss": 2.3854,
7083
+ "step": 1006
7084
+ },
7085
+ {
7086
+ "epoch": 0.9166002958243259,
7087
+ "grad_norm": 0.42210131883621216,
7088
+ "learning_rate": 3.5013766923996604e-06,
7089
+ "loss": 2.2874,
7090
+ "step": 1007
7091
+ },
7092
+ {
7093
+ "epoch": 0.9175105245192855,
7094
+ "grad_norm": 0.41610825061798096,
7095
+ "learning_rate": 3.426108790126681e-06,
7096
+ "loss": 2.3301,
7097
+ "step": 1008
7098
+ },
7099
+ {
7100
+ "epoch": 0.9184207532142451,
7101
+ "grad_norm": 0.42343541979789734,
7102
+ "learning_rate": 3.3516446053363015e-06,
7103
+ "loss": 2.2083,
7104
+ "step": 1009
7105
+ },
7106
+ {
7107
+ "epoch": 0.9193309819092047,
7108
+ "grad_norm": 0.4323045015335083,
7109
+ "learning_rate": 3.2779847577422697e-06,
7110
+ "loss": 2.2401,
7111
+ "step": 1010
7112
+ },
7113
+ {
7114
+ "epoch": 0.9202412106041643,
7115
+ "grad_norm": 0.4198078513145447,
7116
+ "learning_rate": 3.2051298603643753e-06,
7117
+ "loss": 2.0988,
7118
+ "step": 1011
7119
+ },
7120
+ {
7121
+ "epoch": 0.9211514392991239,
7122
+ "grad_norm": 0.4277539551258087,
7123
+ "learning_rate": 3.133080519523368e-06,
7124
+ "loss": 2.3482,
7125
+ "step": 1012
7126
+ },
7127
+ {
7128
+ "epoch": 0.9220616679940835,
7129
+ "grad_norm": 0.42749837040901184,
7130
+ "learning_rate": 3.0618373348359264e-06,
7131
+ "loss": 2.3242,
7132
+ "step": 1013
7133
+ },
7134
+ {
7135
+ "epoch": 0.9229718966890431,
7136
+ "grad_norm": 0.4157456159591675,
7137
+ "learning_rate": 2.991400899209651e-06,
7138
+ "loss": 2.11,
7139
+ "step": 1014
7140
+ },
7141
+ {
7142
+ "epoch": 0.9238821253840027,
7143
+ "grad_norm": 0.41514283418655396,
7144
+ "learning_rate": 2.921771798838069e-06,
7145
+ "loss": 2.0979,
7146
+ "step": 1015
7147
+ },
7148
+ {
7149
+ "epoch": 0.9247923540789623,
7150
+ "grad_norm": 0.4146190285682678,
7151
+ "learning_rate": 2.852950613195915e-06,
7152
+ "loss": 2.1057,
7153
+ "step": 1016
7154
+ },
7155
+ {
7156
+ "epoch": 0.9257025827739219,
7157
+ "grad_norm": 0.4031788110733032,
7158
+ "learning_rate": 2.784937915034169e-06,
7159
+ "loss": 2.1094,
7160
+ "step": 1017
7161
+ },
7162
+ {
7163
+ "epoch": 0.9266128114688815,
7164
+ "grad_norm": 0.4135347604751587,
7165
+ "learning_rate": 2.717734270375272e-06,
7166
+ "loss": 2.2154,
7167
+ "step": 1018
7168
+ },
7169
+ {
7170
+ "epoch": 0.9275230401638411,
7171
+ "grad_norm": 0.40153443813323975,
7172
+ "learning_rate": 2.6513402385085704e-06,
7173
+ "loss": 2.0342,
7174
+ "step": 1019
7175
+ },
7176
+ {
7177
+ "epoch": 0.9284332688588007,
7178
+ "grad_norm": 0.4011882543563843,
7179
+ "learning_rate": 2.585756371985493e-06,
7180
+ "loss": 1.9751,
7181
+ "step": 1020
7182
+ },
7183
+ {
7184
+ "epoch": 0.9293434975537603,
7185
+ "grad_norm": 0.4032374322414398,
7186
+ "learning_rate": 2.520983216615047e-06,
7187
+ "loss": 2.0868,
7188
+ "step": 1021
7189
+ },
7190
+ {
7191
+ "epoch": 0.9302537262487199,
7192
+ "grad_norm": 0.4052782952785492,
7193
+ "learning_rate": 2.4570213114592954e-06,
7194
+ "loss": 2.0716,
7195
+ "step": 1022
7196
+ },
7197
+ {
7198
+ "epoch": 0.9311639549436797,
7199
+ "grad_norm": 0.4261015057563782,
7200
+ "learning_rate": 2.393871188828767e-06,
7201
+ "loss": 2.1153,
7202
+ "step": 1023
7203
+ },
7204
+ {
7205
+ "epoch": 0.9320741836386393,
7206
+ "grad_norm": 0.4141393303871155,
7207
+ "learning_rate": 2.3315333742780942e-06,
7208
+ "loss": 2.0839,
7209
+ "step": 1024
7210
+ },
7211
+ {
7212
+ "epoch": 0.9329844123335989,
7213
+ "grad_norm": 0.41185298562049866,
7214
+ "learning_rate": 2.270008386601685e-06,
7215
+ "loss": 2.0686,
7216
+ "step": 1025
7217
+ },
7218
+ {
7219
+ "epoch": 0.9338946410285585,
7220
+ "grad_norm": 0.41932380199432373,
7221
+ "learning_rate": 2.2092967378292915e-06,
7222
+ "loss": 2.0688,
7223
+ "step": 1026
7224
+ },
7225
+ {
7226
+ "epoch": 0.9348048697235181,
7227
+ "grad_norm": 0.430480033159256,
7228
+ "learning_rate": 2.1493989332218468e-06,
7229
+ "loss": 2.1202,
7230
+ "step": 1027
7231
+ },
7232
+ {
7233
+ "epoch": 0.9357150984184777,
7234
+ "grad_norm": 0.4182969629764557,
7235
+ "learning_rate": 2.0903154712672237e-06,
7236
+ "loss": 1.8457,
7237
+ "step": 1028
7238
+ },
7239
+ {
7240
+ "epoch": 0.9366253271134373,
7241
+ "grad_norm": 0.44270989298820496,
7242
+ "learning_rate": 2.032046843676061e-06,
7243
+ "loss": 2.2296,
7244
+ "step": 1029
7245
+ },
7246
+ {
7247
+ "epoch": 0.9375355558083969,
7248
+ "grad_norm": 0.4312398433685303,
7249
+ "learning_rate": 1.974593535377722e-06,
7250
+ "loss": 1.9802,
7251
+ "step": 1030
7252
+ },
7253
+ {
7254
+ "epoch": 0.9384457845033565,
7255
+ "grad_norm": 0.4557861387729645,
7256
+ "learning_rate": 1.917956024516243e-06,
7257
+ "loss": 1.9306,
7258
+ "step": 1031
7259
+ },
7260
+ {
7261
+ "epoch": 0.9393560131983161,
7262
+ "grad_norm": 0.4993920624256134,
7263
+ "learning_rate": 1.8621347824462787e-06,
7264
+ "loss": 2.275,
7265
+ "step": 1032
7266
+ },
7267
+ {
7268
+ "epoch": 0.9402662418932757,
7269
+ "grad_norm": 0.4622466266155243,
7270
+ "learning_rate": 1.8071302737293295e-06,
7271
+ "loss": 2.1966,
7272
+ "step": 1033
7273
+ },
7274
+ {
7275
+ "epoch": 0.9411764705882353,
7276
+ "grad_norm": 0.4710349142551422,
7277
+ "learning_rate": 1.752942956129744e-06,
7278
+ "loss": 2.1353,
7279
+ "step": 1034
7280
+ },
7281
+ {
7282
+ "epoch": 0.9420866992831949,
7283
+ "grad_norm": 0.4602985680103302,
7284
+ "learning_rate": 1.6995732806109554e-06,
7285
+ "loss": 2.0855,
7286
+ "step": 1035
7287
+ },
7288
+ {
7289
+ "epoch": 0.9429969279781545,
7290
+ "grad_norm": 0.4736422002315521,
7291
+ "learning_rate": 1.6470216913317626e-06,
7292
+ "loss": 2.081,
7293
+ "step": 1036
7294
+ },
7295
+ {
7296
+ "epoch": 0.9439071566731141,
7297
+ "grad_norm": 0.4875909984111786,
7298
+ "learning_rate": 1.5952886256425547e-06,
7299
+ "loss": 2.1607,
7300
+ "step": 1037
7301
+ },
7302
+ {
7303
+ "epoch": 0.9448173853680737,
7304
+ "grad_norm": 0.5093516111373901,
7305
+ "learning_rate": 1.5443745140817366e-06,
7306
+ "loss": 2.2025,
7307
+ "step": 1038
7308
+ },
7309
+ {
7310
+ "epoch": 0.9457276140630333,
7311
+ "grad_norm": 0.5034651160240173,
7312
+ "learning_rate": 1.4942797803721543e-06,
7313
+ "loss": 1.9985,
7314
+ "step": 1039
7315
+ },
7316
+ {
7317
+ "epoch": 0.9466378427579929,
7318
+ "grad_norm": 0.5074111819267273,
7319
+ "learning_rate": 1.4450048414174854e-06,
7320
+ "loss": 2.1175,
7321
+ "step": 1040
7322
+ },
7323
+ {
7324
+ "epoch": 0.9475480714529525,
7325
+ "grad_norm": 0.5183742046356201,
7326
+ "learning_rate": 1.3965501072988663e-06,
7327
+ "loss": 2.0718,
7328
+ "step": 1041
7329
+ },
7330
+ {
7331
+ "epoch": 0.9484583001479122,
7332
+ "grad_norm": 0.5284718871116638,
7333
+ "learning_rate": 1.348915981271437e-06,
7334
+ "loss": 2.1586,
7335
+ "step": 1042
7336
+ },
7337
+ {
7338
+ "epoch": 0.9493685288428718,
7339
+ "grad_norm": 0.545464813709259,
7340
+ "learning_rate": 1.3021028597609675e-06,
7341
+ "loss": 2.2445,
7342
+ "step": 1043
7343
+ },
7344
+ {
7345
+ "epoch": 0.9502787575378314,
7346
+ "grad_norm": 0.5713001489639282,
7347
+ "learning_rate": 1.2561111323605712e-06,
7348
+ "loss": 2.1888,
7349
+ "step": 1044
7350
+ },
7351
+ {
7352
+ "epoch": 0.951188986232791,
7353
+ "grad_norm": 0.5774447321891785,
7354
+ "learning_rate": 1.2109411818274852e-06,
7355
+ "loss": 2.2029,
7356
+ "step": 1045
7357
+ },
7358
+ {
7359
+ "epoch": 0.9520992149277506,
7360
+ "grad_norm": 0.6209971308708191,
7361
+ "learning_rate": 1.1665933840798838e-06,
7362
+ "loss": 2.1735,
7363
+ "step": 1046
7364
+ },
7365
+ {
7366
+ "epoch": 0.9530094436227102,
7367
+ "grad_norm": 0.6675162315368652,
7368
+ "learning_rate": 1.1230681081936923e-06,
7369
+ "loss": 2.4231,
7370
+ "step": 1047
7371
+ },
7372
+ {
7373
+ "epoch": 0.9539196723176698,
7374
+ "grad_norm": 0.7409051060676575,
7375
+ "learning_rate": 1.0803657163995895e-06,
7376
+ "loss": 2.45,
7377
+ "step": 1048
7378
+ },
7379
+ {
7380
+ "epoch": 0.9548299010126294,
7381
+ "grad_norm": 0.8856377601623535,
7382
+ "learning_rate": 1.0384865640799435e-06,
7383
+ "loss": 2.4769,
7384
+ "step": 1049
7385
+ },
7386
+ {
7387
+ "epoch": 0.955740129707589,
7388
+ "grad_norm": 1.4897712469100952,
7389
+ "learning_rate": 9.974309997658915e-07,
7390
+ "loss": 2.6822,
7391
+ "step": 1050
7392
+ },
7393
+ {
7394
+ "epoch": 0.9566503584025486,
7395
+ "grad_norm": 0.4162799119949341,
7396
+ "learning_rate": 9.57199365134387e-07,
7397
+ "loss": 2.493,
7398
+ "step": 1051
7399
+ },
7400
+ {
7401
+ "epoch": 0.9575605870975082,
7402
+ "grad_norm": 0.4336461126804352,
7403
+ "learning_rate": 9.177919950054237e-07,
7404
+ "loss": 2.4071,
7405
+ "step": 1052
7406
+ },
7407
+ {
7408
+ "epoch": 0.9584708157924678,
7409
+ "grad_norm": 0.42869681119918823,
7410
+ "learning_rate": 8.792092173391831e-07,
7411
+ "loss": 2.3585,
7412
+ "step": 1053
7413
+ },
7414
+ {
7415
+ "epoch": 0.9593810444874274,
7416
+ "grad_norm": 0.4060511887073517,
7417
+ "learning_rate": 8.41451353233369e-07,
7418
+ "loss": 2.3244,
7419
+ "step": 1054
7420
+ },
7421
+ {
7422
+ "epoch": 0.960291273182387,
7423
+ "grad_norm": 0.42351028323173523,
7424
+ "learning_rate": 8.04518716920466e-07,
7425
+ "loss": 2.4194,
7426
+ "step": 1055
7427
+ },
7428
+ {
7429
+ "epoch": 0.9612015018773467,
7430
+ "grad_norm": 0.42555585503578186,
7431
+ "learning_rate": 7.684116157651966e-07,
7432
+ "loss": 2.368,
7433
+ "step": 1056
7434
+ },
7435
+ {
7436
+ "epoch": 0.9621117305723063,
7437
+ "grad_norm": 0.4169003665447235,
7438
+ "learning_rate": 7.331303502618903e-07,
7439
+ "loss": 2.3947,
7440
+ "step": 1057
7441
+ },
7442
+ {
7443
+ "epoch": 0.9630219592672659,
7444
+ "grad_norm": 0.43154704570770264,
7445
+ "learning_rate": 6.986752140320518e-07,
7446
+ "loss": 2.2809,
7447
+ "step": 1058
7448
+ },
7449
+ {
7450
+ "epoch": 0.9639321879622255,
7451
+ "grad_norm": 0.40992870926856995,
7452
+ "learning_rate": 6.650464938218637e-07,
7453
+ "loss": 2.2827,
7454
+ "step": 1059
7455
+ },
7456
+ {
7457
+ "epoch": 0.9648424166571851,
7458
+ "grad_norm": 0.4168105125427246,
7459
+ "learning_rate": 6.322444694998319e-07,
7460
+ "loss": 2.3334,
7461
+ "step": 1060
7462
+ },
7463
+ {
7464
+ "epoch": 0.9657526453521448,
7465
+ "grad_norm": 0.43256238102912903,
7466
+ "learning_rate": 6.002694140544329e-07,
7467
+ "loss": 2.2669,
7468
+ "step": 1061
7469
+ },
7470
+ {
7471
+ "epoch": 0.9666628740471044,
7472
+ "grad_norm": 0.42290446162223816,
7473
+ "learning_rate": 5.691215935918815e-07,
7474
+ "loss": 2.1027,
7475
+ "step": 1062
7476
+ },
7477
+ {
7478
+ "epoch": 0.967573102742064,
7479
+ "grad_norm": 0.4109112024307251,
7480
+ "learning_rate": 5.388012673338661e-07,
7481
+ "loss": 2.15,
7482
+ "step": 1063
7483
+ },
7484
+ {
7485
+ "epoch": 0.9684833314370236,
7486
+ "grad_norm": 0.4292824864387512,
7487
+ "learning_rate": 5.093086876154174e-07,
7488
+ "loss": 2.2394,
7489
+ "step": 1064
7490
+ },
7491
+ {
7492
+ "epoch": 0.9693935601319832,
7493
+ "grad_norm": 0.4136911928653717,
7494
+ "learning_rate": 4.80644099882821e-07,
7495
+ "loss": 2.1904,
7496
+ "step": 1065
7497
+ },
7498
+ {
7499
+ "epoch": 0.9703037888269428,
7500
+ "grad_norm": 0.4183078110218048,
7501
+ "learning_rate": 4.5280774269154115e-07,
7502
+ "loss": 2.1499,
7503
+ "step": 1066
7504
+ },
7505
+ {
7506
+ "epoch": 0.9712140175219024,
7507
+ "grad_norm": 0.41571420431137085,
7508
+ "learning_rate": 4.2579984770426686e-07,
7509
+ "loss": 2.0975,
7510
+ "step": 1067
7511
+ },
7512
+ {
7513
+ "epoch": 0.972124246216862,
7514
+ "grad_norm": 0.39653652906417847,
7515
+ "learning_rate": 3.99620639688969e-07,
7516
+ "loss": 1.9686,
7517
+ "step": 1068
7518
+ },
7519
+ {
7520
+ "epoch": 0.9730344749118216,
7521
+ "grad_norm": 0.4133754372596741,
7522
+ "learning_rate": 3.742703365170241e-07,
7523
+ "loss": 2.0801,
7524
+ "step": 1069
7525
+ },
7526
+ {
7527
+ "epoch": 0.9739447036067812,
7528
+ "grad_norm": 0.41434839367866516,
7529
+ "learning_rate": 3.497491491614158e-07,
7530
+ "loss": 1.9311,
7531
+ "step": 1070
7532
+ },
7533
+ {
7534
+ "epoch": 0.9748549323017408,
7535
+ "grad_norm": 0.41751164197921753,
7536
+ "learning_rate": 3.260572816949692e-07,
7537
+ "loss": 2.1841,
7538
+ "step": 1071
7539
+ },
7540
+ {
7541
+ "epoch": 0.9757651609967004,
7542
+ "grad_norm": 0.41821038722991943,
7543
+ "learning_rate": 3.0319493128866396e-07,
7544
+ "loss": 2.0719,
7545
+ "step": 1072
7546
+ },
7547
+ {
7548
+ "epoch": 0.97667538969166,
7549
+ "grad_norm": 0.4422387480735779,
7550
+ "learning_rate": 2.8116228820997957e-07,
7551
+ "loss": 2.2655,
7552
+ "step": 1073
7553
+ },
7554
+ {
7555
+ "epoch": 0.9775856183866196,
7556
+ "grad_norm": 0.4252420961856842,
7557
+ "learning_rate": 2.5995953582130804e-07,
7558
+ "loss": 2.098,
7559
+ "step": 1074
7560
+ },
7561
+ {
7562
+ "epoch": 0.9784958470815792,
7563
+ "grad_norm": 0.4352913498878479,
7564
+ "learning_rate": 2.395868505784438e-07,
7565
+ "loss": 2.1038,
7566
+ "step": 1075
7567
+ },
7568
+ {
7569
+ "epoch": 0.9794060757765388,
7570
+ "grad_norm": 0.43940603733062744,
7571
+ "learning_rate": 2.2004440202911814e-07,
7572
+ "loss": 2.1152,
7573
+ "step": 1076
7574
+ },
7575
+ {
7576
+ "epoch": 0.9803163044714984,
7577
+ "grad_norm": 0.43396398425102234,
7578
+ "learning_rate": 2.0133235281156736e-07,
7579
+ "loss": 2.0175,
7580
+ "step": 1077
7581
+ },
7582
+ {
7583
+ "epoch": 0.981226533166458,
7584
+ "grad_norm": 0.43348294496536255,
7585
+ "learning_rate": 1.83450858653178e-07,
7586
+ "loss": 2.0593,
7587
+ "step": 1078
7588
+ },
7589
+ {
7590
+ "epoch": 0.9821367618614176,
7591
+ "grad_norm": 0.43314129114151,
7592
+ "learning_rate": 1.664000683692324e-07,
7593
+ "loss": 1.9414,
7594
+ "step": 1079
7595
+ },
7596
+ {
7597
+ "epoch": 0.9830469905563773,
7598
+ "grad_norm": 0.47113651037216187,
7599
+ "learning_rate": 1.5018012386162072e-07,
7600
+ "loss": 2.3204,
7601
+ "step": 1080
7602
+ },
7603
+ {
7604
+ "epoch": 0.983957219251337,
7605
+ "grad_norm": 0.43835383653640747,
7606
+ "learning_rate": 1.3479116011769767e-07,
7607
+ "loss": 2.0271,
7608
+ "step": 1081
7609
+ },
7610
+ {
7611
+ "epoch": 0.9848674479462965,
7612
+ "grad_norm": 0.42517396807670593,
7613
+ "learning_rate": 1.2023330520911646e-07,
7614
+ "loss": 1.8366,
7615
+ "step": 1082
7616
+ },
7617
+ {
7618
+ "epoch": 0.9857776766412562,
7619
+ "grad_norm": 0.4593140482902527,
7620
+ "learning_rate": 1.0650668029079658e-07,
7621
+ "loss": 2.0962,
7622
+ "step": 1083
7623
+ },
7624
+ {
7625
+ "epoch": 0.9866879053362158,
7626
+ "grad_norm": 0.4892318546772003,
7627
+ "learning_rate": 9.361139959993549e-08,
7628
+ "loss": 2.144,
7629
+ "step": 1084
7630
+ },
7631
+ {
7632
+ "epoch": 0.9875981340311754,
7633
+ "grad_norm": 0.48190560936927795,
7634
+ "learning_rate": 8.154757045497619e-08,
7635
+ "loss": 2.1081,
7636
+ "step": 1085
7637
+ },
7638
+ {
7639
+ "epoch": 0.988508362726135,
7640
+ "grad_norm": 0.4542143940925598,
7641
+ "learning_rate": 7.0315293254819e-08,
7642
+ "loss": 1.9731,
7643
+ "step": 1086
7644
+ },
7645
+ {
7646
+ "epoch": 0.9894185914210946,
7647
+ "grad_norm": 0.4879550337791443,
7648
+ "learning_rate": 5.991466147791113e-08,
7649
+ "loss": 2.0791,
7650
+ "step": 1087
7651
+ },
7652
+ {
7653
+ "epoch": 0.9903288201160542,
7654
+ "grad_norm": 0.5068708062171936,
7655
+ "learning_rate": 5.0345761681491746e-08,
7656
+ "loss": 2.181,
7657
+ "step": 1088
7658
+ },
7659
+ {
7660
+ "epoch": 0.9912390488110138,
7661
+ "grad_norm": 0.5021325945854187,
7662
+ "learning_rate": 4.1608673500859175e-08,
7663
+ "loss": 2.1546,
7664
+ "step": 1089
7665
+ },
7666
+ {
7667
+ "epoch": 0.9921492775059734,
7668
+ "grad_norm": 0.5045585036277771,
7669
+ "learning_rate": 3.370346964876036e-08,
7670
+ "loss": 2.0335,
7671
+ "step": 1090
7672
+ },
7673
+ {
7674
+ "epoch": 0.993059506200933,
7675
+ "grad_norm": 0.5066413879394531,
7676
+ "learning_rate": 2.6630215914702495e-08,
7677
+ "loss": 2.0639,
7678
+ "step": 1091
7679
+ },
7680
+ {
7681
+ "epoch": 0.9939697348958926,
7682
+ "grad_norm": 0.5761440992355347,
7683
+ "learning_rate": 2.038897116447558e-08,
7684
+ "loss": 2.3702,
7685
+ "step": 1092
7686
+ },
7687
+ {
7688
+ "epoch": 0.9948799635908522,
7689
+ "grad_norm": 0.5774243474006653,
7690
+ "learning_rate": 1.4979787339619578e-08,
7691
+ "loss": 2.1865,
7692
+ "step": 1093
7693
+ },
7694
+ {
7695
+ "epoch": 0.9957901922858118,
7696
+ "grad_norm": 0.6156805157661438,
7697
+ "learning_rate": 1.0402709457035808e-08,
7698
+ "loss": 2.3407,
7699
+ "step": 1094
7700
+ },
7701
+ {
7702
+ "epoch": 0.9967004209807714,
7703
+ "grad_norm": 0.6527782082557678,
7704
+ "learning_rate": 6.657775608553962e-09,
7705
+ "loss": 2.3115,
7706
+ "step": 1095
7707
+ },
7708
+ {
7709
+ "epoch": 0.997610649675731,
7710
+ "grad_norm": 0.7234971523284912,
7711
+ "learning_rate": 3.745016960665648e-09,
7712
+ "loss": 2.5377,
7713
+ "step": 1096
7714
+ },
7715
+ {
7716
+ "epoch": 0.9985208783706906,
7717
+ "grad_norm": 0.7837737798690796,
7718
+ "learning_rate": 1.6644577542357375e-09,
7719
+ "loss": 2.4761,
7720
+ "step": 1097
7721
+ },
7722
+ {
7723
+ "epoch": 0.9994311070656502,
7724
+ "grad_norm": 1.1138982772827148,
7725
+ "learning_rate": 4.1611530431362453e-10,
7726
+ "loss": 2.4967,
7727
+ "step": 1098
7728
+ },
7729
+ {
7730
+ "epoch": 1.0006826715212198,
7731
+ "grad_norm": 3.5543136596679688,
7732
+ "learning_rate": 0.0,
7733
+ "loss": 4.7799,
7734
+ "step": 1099
7735
  }
7736
  ],
7737
  "logging_steps": 1,
 
7746
  "should_evaluate": false,
7747
  "should_log": false,
7748
  "should_save": true,
7749
+ "should_training_stop": true
7750
  },
7751
  "attributes": {}
7752
  }
7753
  },
7754
+ "total_flos": 2.0148357964895355e+18,
7755
  "train_batch_size": 2,
7756
  "trial_name": null,
7757
  "trial_params": null