dabrown commited on
Commit
ba53426
·
verified ·
1 Parent(s): 29ded14

Training in progress, step 550, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8626b77f2c20a16df18627f1586ffdbf4a4e68cc0d49fc23fc4cf5cbe5c9a980
3
  size 80792096
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7f2bba67c1c1484d2bc04c25f371989dddfa7218d9db23366bcfd17cb36894c8
3
  size 80792096
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:02a6932ab63a65dab89982c10ada890636f14f61756bc24f2a30352d27e6684d
3
  size 41460084
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:507ef66950bd52137d14c378fc2f78b5ad9af0c9387506f9ca6699bcba5321d8
3
  size 41460084
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:cf9673839065b58d76bc3b02d183cf197c172d16da9dabd5f8c5d915fe61be07
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b5d154d045ee189af4c648f80535098cfde6139351de9c4d32c890f904602cee
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c5be8b274530ed5517e32e7b23ab26f34602144201990badc0a09d01cd9796b2
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:789cac547d76905ddc88036180d9f246f307a104c94da93e131a174052f790e8
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.2503128911138924,
5
  "eval_steps": 275,
6
- "global_step": 275,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -1948,6 +1948,1939 @@
1948
  "eval_samples_per_second": 9.017,
1949
  "eval_steps_per_second": 4.511,
1950
  "step": 275
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1951
  }
1952
  ],
1953
  "logging_steps": 1,
@@ -1967,7 +3900,7 @@
1967
  "attributes": {}
1968
  }
1969
  },
1970
- "total_flos": 5.1442616080583885e+17,
1971
  "train_batch_size": 2,
1972
  "trial_name": null,
1973
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.5006257822277848,
5
  "eval_steps": 275,
6
+ "global_step": 550,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
1948
  "eval_samples_per_second": 9.017,
1949
  "eval_steps_per_second": 4.511,
1950
  "step": 275
1951
+ },
1952
+ {
1953
+ "epoch": 0.251223119808852,
1954
+ "grad_norm": 0.39927324652671814,
1955
+ "learning_rate": 0.00017197404764772805,
1956
+ "loss": 2.1982,
1957
+ "step": 276
1958
+ },
1959
+ {
1960
+ "epoch": 0.2521333485038116,
1961
+ "grad_norm": 0.4287830889225006,
1962
+ "learning_rate": 0.00017177347024911562,
1963
+ "loss": 2.2733,
1964
+ "step": 277
1965
+ },
1966
+ {
1967
+ "epoch": 0.2530435771987712,
1968
+ "grad_norm": 0.3960012197494507,
1969
+ "learning_rate": 0.00017157229552971487,
1970
+ "loss": 2.1884,
1971
+ "step": 278
1972
+ },
1973
+ {
1974
+ "epoch": 0.2539538058937308,
1975
+ "grad_norm": 0.40106138586997986,
1976
+ "learning_rate": 0.00017137052516376345,
1977
+ "loss": 2.1207,
1978
+ "step": 279
1979
+ },
1980
+ {
1981
+ "epoch": 0.2548640345886904,
1982
+ "grad_norm": 0.4410867393016815,
1983
+ "learning_rate": 0.00017116816083045602,
1984
+ "loss": 2.3589,
1985
+ "step": 280
1986
+ },
1987
+ {
1988
+ "epoch": 0.25577426328365,
1989
+ "grad_norm": 0.4092939794063568,
1990
+ "learning_rate": 0.0001709652042139306,
1991
+ "loss": 2.0842,
1992
+ "step": 281
1993
+ },
1994
+ {
1995
+ "epoch": 0.25668449197860965,
1996
+ "grad_norm": 0.40820494294166565,
1997
+ "learning_rate": 0.0001707616570032542,
1998
+ "loss": 2.1658,
1999
+ "step": 282
2000
+ },
2001
+ {
2002
+ "epoch": 0.25759472067356926,
2003
+ "grad_norm": 0.41664186120033264,
2004
+ "learning_rate": 0.00017055752089240907,
2005
+ "loss": 2.1389,
2006
+ "step": 283
2007
+ },
2008
+ {
2009
+ "epoch": 0.25850494936852886,
2010
+ "grad_norm": 0.4125240445137024,
2011
+ "learning_rate": 0.00017035279758027832,
2012
+ "loss": 2.0615,
2013
+ "step": 284
2014
+ },
2015
+ {
2016
+ "epoch": 0.25941517806348846,
2017
+ "grad_norm": 0.42702898383140564,
2018
+ "learning_rate": 0.00017014748877063214,
2019
+ "loss": 2.017,
2020
+ "step": 285
2021
+ },
2022
+ {
2023
+ "epoch": 0.26032540675844806,
2024
+ "grad_norm": 0.44943541288375854,
2025
+ "learning_rate": 0.00016994159617211317,
2026
+ "loss": 2.1901,
2027
+ "step": 286
2028
+ },
2029
+ {
2030
+ "epoch": 0.26123563545340767,
2031
+ "grad_norm": 0.4286860227584839,
2032
+ "learning_rate": 0.00016973512149822274,
2033
+ "loss": 2.0643,
2034
+ "step": 287
2035
+ },
2036
+ {
2037
+ "epoch": 0.26214586414836727,
2038
+ "grad_norm": 0.44938111305236816,
2039
+ "learning_rate": 0.0001695280664673062,
2040
+ "loss": 2.1539,
2041
+ "step": 288
2042
+ },
2043
+ {
2044
+ "epoch": 0.26305609284332687,
2045
+ "grad_norm": 0.4638296067714691,
2046
+ "learning_rate": 0.0001693204328025389,
2047
+ "loss": 2.291,
2048
+ "step": 289
2049
+ },
2050
+ {
2051
+ "epoch": 0.2639663215382865,
2052
+ "grad_norm": 0.49295714497566223,
2053
+ "learning_rate": 0.00016911222223191182,
2054
+ "loss": 2.2538,
2055
+ "step": 290
2056
+ },
2057
+ {
2058
+ "epoch": 0.2648765502332461,
2059
+ "grad_norm": 0.48185715079307556,
2060
+ "learning_rate": 0.00016890343648821697,
2061
+ "loss": 2.2792,
2062
+ "step": 291
2063
+ },
2064
+ {
2065
+ "epoch": 0.26578677892820574,
2066
+ "grad_norm": 0.4750272035598755,
2067
+ "learning_rate": 0.0001686940773090333,
2068
+ "loss": 2.2774,
2069
+ "step": 292
2070
+ },
2071
+ {
2072
+ "epoch": 0.26669700762316534,
2073
+ "grad_norm": 0.5073033571243286,
2074
+ "learning_rate": 0.00016848414643671195,
2075
+ "loss": 2.3261,
2076
+ "step": 293
2077
+ },
2078
+ {
2079
+ "epoch": 0.26760723631812494,
2080
+ "grad_norm": 0.5343424081802368,
2081
+ "learning_rate": 0.00016827364561836187,
2082
+ "loss": 2.4097,
2083
+ "step": 294
2084
+ },
2085
+ {
2086
+ "epoch": 0.26851746501308454,
2087
+ "grad_norm": 0.5311369895935059,
2088
+ "learning_rate": 0.00016806257660583534,
2089
+ "loss": 2.3821,
2090
+ "step": 295
2091
+ },
2092
+ {
2093
+ "epoch": 0.26942769370804415,
2094
+ "grad_norm": 0.5551429986953735,
2095
+ "learning_rate": 0.00016785094115571322,
2096
+ "loss": 2.3795,
2097
+ "step": 296
2098
+ },
2099
+ {
2100
+ "epoch": 0.27033792240300375,
2101
+ "grad_norm": 0.6279783248901367,
2102
+ "learning_rate": 0.0001676387410292906,
2103
+ "loss": 2.435,
2104
+ "step": 297
2105
+ },
2106
+ {
2107
+ "epoch": 0.27124815109796335,
2108
+ "grad_norm": 0.7317250967025757,
2109
+ "learning_rate": 0.00016742597799256182,
2110
+ "loss": 2.6991,
2111
+ "step": 298
2112
+ },
2113
+ {
2114
+ "epoch": 0.27215837979292296,
2115
+ "grad_norm": 0.8485302329063416,
2116
+ "learning_rate": 0.000167212653816206,
2117
+ "loss": 2.7005,
2118
+ "step": 299
2119
+ },
2120
+ {
2121
+ "epoch": 0.27306860848788256,
2122
+ "grad_norm": 1.5959185361862183,
2123
+ "learning_rate": 0.00016699877027557226,
2124
+ "loss": 2.7536,
2125
+ "step": 300
2126
+ },
2127
+ {
2128
+ "epoch": 0.2739788371828422,
2129
+ "grad_norm": 0.4755174219608307,
2130
+ "learning_rate": 0.00016678432915066488,
2131
+ "loss": 2.5907,
2132
+ "step": 301
2133
+ },
2134
+ {
2135
+ "epoch": 0.2748890658778018,
2136
+ "grad_norm": 0.45389342308044434,
2137
+ "learning_rate": 0.00016656933222612854,
2138
+ "loss": 2.4622,
2139
+ "step": 302
2140
+ },
2141
+ {
2142
+ "epoch": 0.2757992945727614,
2143
+ "grad_norm": 0.4949435591697693,
2144
+ "learning_rate": 0.00016635378129123342,
2145
+ "loss": 2.4185,
2146
+ "step": 303
2147
+ },
2148
+ {
2149
+ "epoch": 0.276709523267721,
2150
+ "grad_norm": 0.4521631896495819,
2151
+ "learning_rate": 0.00016613767813986044,
2152
+ "loss": 2.4918,
2153
+ "step": 304
2154
+ },
2155
+ {
2156
+ "epoch": 0.2776197519626806,
2157
+ "grad_norm": 0.4228963553905487,
2158
+ "learning_rate": 0.0001659210245704861,
2159
+ "loss": 2.4194,
2160
+ "step": 305
2161
+ },
2162
+ {
2163
+ "epoch": 0.27852998065764023,
2164
+ "grad_norm": 0.4170341491699219,
2165
+ "learning_rate": 0.00016570382238616777,
2166
+ "loss": 2.4185,
2167
+ "step": 306
2168
+ },
2169
+ {
2170
+ "epoch": 0.27944020935259983,
2171
+ "grad_norm": 0.4123315215110779,
2172
+ "learning_rate": 0.00016548607339452853,
2173
+ "loss": 2.3737,
2174
+ "step": 307
2175
+ },
2176
+ {
2177
+ "epoch": 0.28035043804755944,
2178
+ "grad_norm": 0.4320162832736969,
2179
+ "learning_rate": 0.00016526777940774204,
2180
+ "loss": 2.3317,
2181
+ "step": 308
2182
+ },
2183
+ {
2184
+ "epoch": 0.28126066674251904,
2185
+ "grad_norm": 0.4118390381336212,
2186
+ "learning_rate": 0.00016504894224251778,
2187
+ "loss": 2.3786,
2188
+ "step": 309
2189
+ },
2190
+ {
2191
+ "epoch": 0.28217089543747864,
2192
+ "grad_norm": 0.39763331413269043,
2193
+ "learning_rate": 0.0001648295637200856,
2194
+ "loss": 2.2968,
2195
+ "step": 310
2196
+ },
2197
+ {
2198
+ "epoch": 0.2830811241324383,
2199
+ "grad_norm": 0.4391527473926544,
2200
+ "learning_rate": 0.0001646096456661807,
2201
+ "loss": 2.3764,
2202
+ "step": 311
2203
+ },
2204
+ {
2205
+ "epoch": 0.2839913528273979,
2206
+ "grad_norm": 0.43077877163887024,
2207
+ "learning_rate": 0.00016438918991102842,
2208
+ "loss": 2.2013,
2209
+ "step": 312
2210
+ },
2211
+ {
2212
+ "epoch": 0.2849015815223575,
2213
+ "grad_norm": 0.43149155378341675,
2214
+ "learning_rate": 0.000164168198289329,
2215
+ "loss": 2.3097,
2216
+ "step": 313
2217
+ },
2218
+ {
2219
+ "epoch": 0.2858118102173171,
2220
+ "grad_norm": 0.40134817361831665,
2221
+ "learning_rate": 0.00016394667264024246,
2222
+ "loss": 2.3306,
2223
+ "step": 314
2224
+ },
2225
+ {
2226
+ "epoch": 0.2867220389122767,
2227
+ "grad_norm": 0.4056681990623474,
2228
+ "learning_rate": 0.00016372461480737297,
2229
+ "loss": 2.3146,
2230
+ "step": 315
2231
+ },
2232
+ {
2233
+ "epoch": 0.2876322676072363,
2234
+ "grad_norm": 0.41738027334213257,
2235
+ "learning_rate": 0.00016350202663875386,
2236
+ "loss": 1.9997,
2237
+ "step": 316
2238
+ },
2239
+ {
2240
+ "epoch": 0.2885424963021959,
2241
+ "grad_norm": 0.38182246685028076,
2242
+ "learning_rate": 0.00016327890998683192,
2243
+ "loss": 2.0466,
2244
+ "step": 317
2245
+ },
2246
+ {
2247
+ "epoch": 0.2894527249971555,
2248
+ "grad_norm": 0.39759719371795654,
2249
+ "learning_rate": 0.00016305526670845226,
2250
+ "loss": 2.1788,
2251
+ "step": 318
2252
+ },
2253
+ {
2254
+ "epoch": 0.2903629536921151,
2255
+ "grad_norm": 0.3982352614402771,
2256
+ "learning_rate": 0.0001628310986648427,
2257
+ "loss": 2.2115,
2258
+ "step": 319
2259
+ },
2260
+ {
2261
+ "epoch": 0.2912731823870747,
2262
+ "grad_norm": 0.41679051518440247,
2263
+ "learning_rate": 0.0001626064077215983,
2264
+ "loss": 2.3036,
2265
+ "step": 320
2266
+ },
2267
+ {
2268
+ "epoch": 0.2921834110820344,
2269
+ "grad_norm": 0.40436604619026184,
2270
+ "learning_rate": 0.00016238119574866588,
2271
+ "loss": 2.1493,
2272
+ "step": 321
2273
+ },
2274
+ {
2275
+ "epoch": 0.293093639776994,
2276
+ "grad_norm": 0.4502476751804352,
2277
+ "learning_rate": 0.0001621554646203284,
2278
+ "loss": 1.8572,
2279
+ "step": 322
2280
+ },
2281
+ {
2282
+ "epoch": 0.2940038684719536,
2283
+ "grad_norm": 0.44303473830223083,
2284
+ "learning_rate": 0.00016192921621518944,
2285
+ "loss": 2.1832,
2286
+ "step": 323
2287
+ },
2288
+ {
2289
+ "epoch": 0.2949140971669132,
2290
+ "grad_norm": 0.4064692258834839,
2291
+ "learning_rate": 0.0001617024524161574,
2292
+ "loss": 2.2656,
2293
+ "step": 324
2294
+ },
2295
+ {
2296
+ "epoch": 0.2958243258618728,
2297
+ "grad_norm": 0.4479392170906067,
2298
+ "learning_rate": 0.0001614751751104301,
2299
+ "loss": 2.2462,
2300
+ "step": 325
2301
+ },
2302
+ {
2303
+ "epoch": 0.2967345545568324,
2304
+ "grad_norm": 0.4629363715648651,
2305
+ "learning_rate": 0.0001612473861894788,
2306
+ "loss": 1.9715,
2307
+ "step": 326
2308
+ },
2309
+ {
2310
+ "epoch": 0.297644783251792,
2311
+ "grad_norm": 0.3991665542125702,
2312
+ "learning_rate": 0.00016101908754903268,
2313
+ "loss": 2.0642,
2314
+ "step": 327
2315
+ },
2316
+ {
2317
+ "epoch": 0.2985550119467516,
2318
+ "grad_norm": 0.42503711581230164,
2319
+ "learning_rate": 0.00016079028108906282,
2320
+ "loss": 2.1403,
2321
+ "step": 328
2322
+ },
2323
+ {
2324
+ "epoch": 0.2994652406417112,
2325
+ "grad_norm": 0.4499455392360687,
2326
+ "learning_rate": 0.00016056096871376667,
2327
+ "loss": 2.0534,
2328
+ "step": 329
2329
+ },
2330
+ {
2331
+ "epoch": 0.30037546933667086,
2332
+ "grad_norm": 0.4549277424812317,
2333
+ "learning_rate": 0.00016033115233155202,
2334
+ "loss": 2.2083,
2335
+ "step": 330
2336
+ },
2337
+ {
2338
+ "epoch": 0.30128569803163047,
2339
+ "grad_norm": 0.3974262773990631,
2340
+ "learning_rate": 0.0001601008338550211,
2341
+ "loss": 2.0156,
2342
+ "step": 331
2343
+ },
2344
+ {
2345
+ "epoch": 0.30219592672659007,
2346
+ "grad_norm": 0.43566057085990906,
2347
+ "learning_rate": 0.00015987001520095478,
2348
+ "loss": 2.1801,
2349
+ "step": 332
2350
+ },
2351
+ {
2352
+ "epoch": 0.3031061554215497,
2353
+ "grad_norm": 0.47677701711654663,
2354
+ "learning_rate": 0.00015963869829029658,
2355
+ "loss": 2.1415,
2356
+ "step": 333
2357
+ },
2358
+ {
2359
+ "epoch": 0.3040163841165093,
2360
+ "grad_norm": 0.4603672921657562,
2361
+ "learning_rate": 0.00015940688504813662,
2362
+ "loss": 2.2967,
2363
+ "step": 334
2364
+ },
2365
+ {
2366
+ "epoch": 0.3049266128114689,
2367
+ "grad_norm": 0.4428515136241913,
2368
+ "learning_rate": 0.00015917457740369565,
2369
+ "loss": 2.1447,
2370
+ "step": 335
2371
+ },
2372
+ {
2373
+ "epoch": 0.3058368415064285,
2374
+ "grad_norm": 0.4379275441169739,
2375
+ "learning_rate": 0.000158941777290309,
2376
+ "loss": 2.0957,
2377
+ "step": 336
2378
+ },
2379
+ {
2380
+ "epoch": 0.3067470702013881,
2381
+ "grad_norm": 0.4831966459751129,
2382
+ "learning_rate": 0.00015870848664541044,
2383
+ "loss": 2.2457,
2384
+ "step": 337
2385
+ },
2386
+ {
2387
+ "epoch": 0.3076572988963477,
2388
+ "grad_norm": 0.45160865783691406,
2389
+ "learning_rate": 0.00015847470741051618,
2390
+ "loss": 2.1441,
2391
+ "step": 338
2392
+ },
2393
+ {
2394
+ "epoch": 0.3085675275913073,
2395
+ "grad_norm": 0.44453370571136475,
2396
+ "learning_rate": 0.00015824044153120852,
2397
+ "loss": 2.1073,
2398
+ "step": 339
2399
+ },
2400
+ {
2401
+ "epoch": 0.30947775628626695,
2402
+ "grad_norm": 0.49965375661849976,
2403
+ "learning_rate": 0.00015800569095711982,
2404
+ "loss": 2.1574,
2405
+ "step": 340
2406
+ },
2407
+ {
2408
+ "epoch": 0.31038798498122655,
2409
+ "grad_norm": 0.48138341307640076,
2410
+ "learning_rate": 0.00015777045764191625,
2411
+ "loss": 2.0205,
2412
+ "step": 341
2413
+ },
2414
+ {
2415
+ "epoch": 0.31129821367618615,
2416
+ "grad_norm": 0.5034924745559692,
2417
+ "learning_rate": 0.00015753474354328142,
2418
+ "loss": 2.2319,
2419
+ "step": 342
2420
+ },
2421
+ {
2422
+ "epoch": 0.31220844237114576,
2423
+ "grad_norm": 0.5034711956977844,
2424
+ "learning_rate": 0.00015729855062290022,
2425
+ "loss": 2.4066,
2426
+ "step": 343
2427
+ },
2428
+ {
2429
+ "epoch": 0.31311867106610536,
2430
+ "grad_norm": 0.5409703254699707,
2431
+ "learning_rate": 0.00015706188084644242,
2432
+ "loss": 2.2435,
2433
+ "step": 344
2434
+ },
2435
+ {
2436
+ "epoch": 0.31402889976106496,
2437
+ "grad_norm": 0.544597327709198,
2438
+ "learning_rate": 0.00015682473618354635,
2439
+ "loss": 2.2625,
2440
+ "step": 345
2441
+ },
2442
+ {
2443
+ "epoch": 0.31493912845602456,
2444
+ "grad_norm": 0.6114000082015991,
2445
+ "learning_rate": 0.0001565871186078025,
2446
+ "loss": 2.4302,
2447
+ "step": 346
2448
+ },
2449
+ {
2450
+ "epoch": 0.31584935715098417,
2451
+ "grad_norm": 0.6364843845367432,
2452
+ "learning_rate": 0.00015634903009673705,
2453
+ "loss": 2.5153,
2454
+ "step": 347
2455
+ },
2456
+ {
2457
+ "epoch": 0.31675958584594377,
2458
+ "grad_norm": 0.7510351538658142,
2459
+ "learning_rate": 0.00015611047263179548,
2460
+ "loss": 2.5605,
2461
+ "step": 348
2462
+ },
2463
+ {
2464
+ "epoch": 0.31766981454090343,
2465
+ "grad_norm": 0.8501291275024414,
2466
+ "learning_rate": 0.000155871448198326,
2467
+ "loss": 2.6519,
2468
+ "step": 349
2469
+ },
2470
+ {
2471
+ "epoch": 0.31858004323586303,
2472
+ "grad_norm": 1.7441632747650146,
2473
+ "learning_rate": 0.0001556319587855631,
2474
+ "loss": 2.7517,
2475
+ "step": 350
2476
+ },
2477
+ {
2478
+ "epoch": 0.31949027193082263,
2479
+ "grad_norm": 0.5301811695098877,
2480
+ "learning_rate": 0.00015539200638661104,
2481
+ "loss": 2.6647,
2482
+ "step": 351
2483
+ },
2484
+ {
2485
+ "epoch": 0.32040050062578224,
2486
+ "grad_norm": 0.5063616633415222,
2487
+ "learning_rate": 0.00015515159299842707,
2488
+ "loss": 2.4961,
2489
+ "step": 352
2490
+ },
2491
+ {
2492
+ "epoch": 0.32131072932074184,
2493
+ "grad_norm": 0.4843781590461731,
2494
+ "learning_rate": 0.00015491072062180503,
2495
+ "loss": 2.496,
2496
+ "step": 353
2497
+ },
2498
+ {
2499
+ "epoch": 0.32222095801570144,
2500
+ "grad_norm": 0.4524553716182709,
2501
+ "learning_rate": 0.00015466939126135856,
2502
+ "loss": 2.448,
2503
+ "step": 354
2504
+ },
2505
+ {
2506
+ "epoch": 0.32313118671066104,
2507
+ "grad_norm": 0.43678200244903564,
2508
+ "learning_rate": 0.00015442760692550443,
2509
+ "loss": 2.2687,
2510
+ "step": 355
2511
+ },
2512
+ {
2513
+ "epoch": 0.32404141540562065,
2514
+ "grad_norm": 0.4301970303058624,
2515
+ "learning_rate": 0.00015418536962644592,
2516
+ "loss": 2.4826,
2517
+ "step": 356
2518
+ },
2519
+ {
2520
+ "epoch": 0.32495164410058025,
2521
+ "grad_norm": 0.42540326714515686,
2522
+ "learning_rate": 0.00015394268138015598,
2523
+ "loss": 2.4205,
2524
+ "step": 357
2525
+ },
2526
+ {
2527
+ "epoch": 0.32586187279553985,
2528
+ "grad_norm": 0.4173906445503235,
2529
+ "learning_rate": 0.00015369954420636048,
2530
+ "loss": 2.394,
2531
+ "step": 358
2532
+ },
2533
+ {
2534
+ "epoch": 0.3267721014904995,
2535
+ "grad_norm": 0.43184736371040344,
2536
+ "learning_rate": 0.00015345596012852138,
2537
+ "loss": 2.3504,
2538
+ "step": 359
2539
+ },
2540
+ {
2541
+ "epoch": 0.3276823301854591,
2542
+ "grad_norm": 0.4002053141593933,
2543
+ "learning_rate": 0.00015321193117381996,
2544
+ "loss": 2.2951,
2545
+ "step": 360
2546
+ },
2547
+ {
2548
+ "epoch": 0.3285925588804187,
2549
+ "grad_norm": 0.39067134261131287,
2550
+ "learning_rate": 0.00015296745937313987,
2551
+ "loss": 2.2768,
2552
+ "step": 361
2553
+ },
2554
+ {
2555
+ "epoch": 0.3295027875753783,
2556
+ "grad_norm": 0.40051525831222534,
2557
+ "learning_rate": 0.00015272254676105025,
2558
+ "loss": 2.2235,
2559
+ "step": 362
2560
+ },
2561
+ {
2562
+ "epoch": 0.3304130162703379,
2563
+ "grad_norm": 0.3954068422317505,
2564
+ "learning_rate": 0.00015247719537578883,
2565
+ "loss": 2.2502,
2566
+ "step": 363
2567
+ },
2568
+ {
2569
+ "epoch": 0.3313232449652975,
2570
+ "grad_norm": 0.4123362600803375,
2571
+ "learning_rate": 0.00015223140725924495,
2572
+ "loss": 2.3309,
2573
+ "step": 364
2574
+ },
2575
+ {
2576
+ "epoch": 0.33223347366025713,
2577
+ "grad_norm": 0.4138774871826172,
2578
+ "learning_rate": 0.00015198518445694255,
2579
+ "loss": 2.4107,
2580
+ "step": 365
2581
+ },
2582
+ {
2583
+ "epoch": 0.33314370235521673,
2584
+ "grad_norm": 0.3983847498893738,
2585
+ "learning_rate": 0.0001517385290180231,
2586
+ "loss": 2.2718,
2587
+ "step": 366
2588
+ },
2589
+ {
2590
+ "epoch": 0.33405393105017633,
2591
+ "grad_norm": 0.36962834000587463,
2592
+ "learning_rate": 0.00015149144299522873,
2593
+ "loss": 2.1744,
2594
+ "step": 367
2595
+ },
2596
+ {
2597
+ "epoch": 0.334964159745136,
2598
+ "grad_norm": 0.37924104928970337,
2599
+ "learning_rate": 0.0001512439284448849,
2600
+ "loss": 2.1451,
2601
+ "step": 368
2602
+ },
2603
+ {
2604
+ "epoch": 0.3358743884400956,
2605
+ "grad_norm": 0.39990487694740295,
2606
+ "learning_rate": 0.0001509959874268835,
2607
+ "loss": 2.2508,
2608
+ "step": 369
2609
+ },
2610
+ {
2611
+ "epoch": 0.3367846171350552,
2612
+ "grad_norm": 0.3862214684486389,
2613
+ "learning_rate": 0.00015074762200466556,
2614
+ "loss": 2.1483,
2615
+ "step": 370
2616
+ },
2617
+ {
2618
+ "epoch": 0.3376948458300148,
2619
+ "grad_norm": 0.4037676751613617,
2620
+ "learning_rate": 0.00015049883424520414,
2621
+ "loss": 2.2179,
2622
+ "step": 371
2623
+ },
2624
+ {
2625
+ "epoch": 0.3386050745249744,
2626
+ "grad_norm": 0.40439948439598083,
2627
+ "learning_rate": 0.00015024962621898715,
2628
+ "loss": 2.2054,
2629
+ "step": 372
2630
+ },
2631
+ {
2632
+ "epoch": 0.339515303219934,
2633
+ "grad_norm": 0.3871942460536957,
2634
+ "learning_rate": 0.00015000000000000001,
2635
+ "loss": 2.129,
2636
+ "step": 373
2637
+ },
2638
+ {
2639
+ "epoch": 0.3404255319148936,
2640
+ "grad_norm": 0.4091387093067169,
2641
+ "learning_rate": 0.00014974995766570855,
2642
+ "loss": 2.1395,
2643
+ "step": 374
2644
+ },
2645
+ {
2646
+ "epoch": 0.3413357606098532,
2647
+ "grad_norm": 0.4097527265548706,
2648
+ "learning_rate": 0.00014949950129704162,
2649
+ "loss": 2.1789,
2650
+ "step": 375
2651
+ },
2652
+ {
2653
+ "epoch": 0.3422459893048128,
2654
+ "grad_norm": 0.4139934480190277,
2655
+ "learning_rate": 0.00014924863297837378,
2656
+ "loss": 2.0611,
2657
+ "step": 376
2658
+ },
2659
+ {
2660
+ "epoch": 0.3431562179997724,
2661
+ "grad_norm": 0.4146927297115326,
2662
+ "learning_rate": 0.00014899735479750794,
2663
+ "loss": 2.2488,
2664
+ "step": 377
2665
+ },
2666
+ {
2667
+ "epoch": 0.3440664466947321,
2668
+ "grad_norm": 0.4194958209991455,
2669
+ "learning_rate": 0.00014874566884565807,
2670
+ "loss": 2.0164,
2671
+ "step": 378
2672
+ },
2673
+ {
2674
+ "epoch": 0.3449766753896917,
2675
+ "grad_norm": 0.41280898451805115,
2676
+ "learning_rate": 0.00014849357721743168,
2677
+ "loss": 2.1503,
2678
+ "step": 379
2679
+ },
2680
+ {
2681
+ "epoch": 0.3458869040846513,
2682
+ "grad_norm": 0.4133208692073822,
2683
+ "learning_rate": 0.00014824108201081247,
2684
+ "loss": 2.0895,
2685
+ "step": 380
2686
+ },
2687
+ {
2688
+ "epoch": 0.3467971327796109,
2689
+ "grad_norm": 0.41347819566726685,
2690
+ "learning_rate": 0.00014798818532714279,
2691
+ "loss": 2.0479,
2692
+ "step": 381
2693
+ },
2694
+ {
2695
+ "epoch": 0.3477073614745705,
2696
+ "grad_norm": 0.43102580308914185,
2697
+ "learning_rate": 0.00014773488927110633,
2698
+ "loss": 2.1458,
2699
+ "step": 382
2700
+ },
2701
+ {
2702
+ "epoch": 0.3486175901695301,
2703
+ "grad_norm": 0.41427451372146606,
2704
+ "learning_rate": 0.00014748119595071034,
2705
+ "loss": 1.9396,
2706
+ "step": 383
2707
+ },
2708
+ {
2709
+ "epoch": 0.3495278188644897,
2710
+ "grad_norm": 0.46386152505874634,
2711
+ "learning_rate": 0.0001472271074772683,
2712
+ "loss": 2.2446,
2713
+ "step": 384
2714
+ },
2715
+ {
2716
+ "epoch": 0.3504380475594493,
2717
+ "grad_norm": 0.4310764670372009,
2718
+ "learning_rate": 0.00014697262596538227,
2719
+ "loss": 2.2144,
2720
+ "step": 385
2721
+ },
2722
+ {
2723
+ "epoch": 0.3513482762544089,
2724
+ "grad_norm": 0.4956878423690796,
2725
+ "learning_rate": 0.00014671775353292525,
2726
+ "loss": 2.1875,
2727
+ "step": 386
2728
+ },
2729
+ {
2730
+ "epoch": 0.35225850494936856,
2731
+ "grad_norm": 0.4793931543827057,
2732
+ "learning_rate": 0.00014646249230102366,
2733
+ "loss": 2.2733,
2734
+ "step": 387
2735
+ },
2736
+ {
2737
+ "epoch": 0.35316873364432816,
2738
+ "grad_norm": 0.46217313408851624,
2739
+ "learning_rate": 0.00014620684439403962,
2740
+ "loss": 2.2812,
2741
+ "step": 388
2742
+ },
2743
+ {
2744
+ "epoch": 0.35407896233928776,
2745
+ "grad_norm": 0.4721885323524475,
2746
+ "learning_rate": 0.00014595081193955324,
2747
+ "loss": 2.1223,
2748
+ "step": 389
2749
+ },
2750
+ {
2751
+ "epoch": 0.35498919103424736,
2752
+ "grad_norm": 0.49550965428352356,
2753
+ "learning_rate": 0.000145694397068345,
2754
+ "loss": 2.156,
2755
+ "step": 390
2756
+ },
2757
+ {
2758
+ "epoch": 0.35589941972920697,
2759
+ "grad_norm": 0.5109139084815979,
2760
+ "learning_rate": 0.0001454376019143779,
2761
+ "loss": 2.1494,
2762
+ "step": 391
2763
+ },
2764
+ {
2765
+ "epoch": 0.35680964842416657,
2766
+ "grad_norm": 0.4725574553012848,
2767
+ "learning_rate": 0.00014518042861477986,
2768
+ "loss": 2.1793,
2769
+ "step": 392
2770
+ },
2771
+ {
2772
+ "epoch": 0.3577198771191262,
2773
+ "grad_norm": 0.4739914536476135,
2774
+ "learning_rate": 0.00014492287930982576,
2775
+ "loss": 2.1763,
2776
+ "step": 393
2777
+ },
2778
+ {
2779
+ "epoch": 0.3586301058140858,
2780
+ "grad_norm": 0.5420114994049072,
2781
+ "learning_rate": 0.00014466495614291977,
2782
+ "loss": 2.4521,
2783
+ "step": 394
2784
+ },
2785
+ {
2786
+ "epoch": 0.3595403345090454,
2787
+ "grad_norm": 0.5225427150726318,
2788
+ "learning_rate": 0.00014440666126057744,
2789
+ "loss": 2.372,
2790
+ "step": 395
2791
+ },
2792
+ {
2793
+ "epoch": 0.360450563204005,
2794
+ "grad_norm": 0.5337964296340942,
2795
+ "learning_rate": 0.0001441479968124078,
2796
+ "loss": 2.397,
2797
+ "step": 396
2798
+ },
2799
+ {
2800
+ "epoch": 0.36136079189896464,
2801
+ "grad_norm": 0.5906230807304382,
2802
+ "learning_rate": 0.0001438889649510956,
2803
+ "loss": 2.506,
2804
+ "step": 397
2805
+ },
2806
+ {
2807
+ "epoch": 0.36227102059392424,
2808
+ "grad_norm": 0.6578875780105591,
2809
+ "learning_rate": 0.00014362956783238324,
2810
+ "loss": 2.6408,
2811
+ "step": 398
2812
+ },
2813
+ {
2814
+ "epoch": 0.36318124928888385,
2815
+ "grad_norm": 0.7982918620109558,
2816
+ "learning_rate": 0.00014336980761505297,
2817
+ "loss": 2.6612,
2818
+ "step": 399
2819
+ },
2820
+ {
2821
+ "epoch": 0.36409147798384345,
2822
+ "grad_norm": 1.4390262365341187,
2823
+ "learning_rate": 0.00014310968646090883,
2824
+ "loss": 2.7073,
2825
+ "step": 400
2826
+ },
2827
+ {
2828
+ "epoch": 0.36500170667880305,
2829
+ "grad_norm": 0.5260487198829651,
2830
+ "learning_rate": 0.00014284920653475866,
2831
+ "loss": 2.6269,
2832
+ "step": 401
2833
+ },
2834
+ {
2835
+ "epoch": 0.36591193537376265,
2836
+ "grad_norm": 0.4492892026901245,
2837
+ "learning_rate": 0.00014258837000439618,
2838
+ "loss": 2.3863,
2839
+ "step": 402
2840
+ },
2841
+ {
2842
+ "epoch": 0.36682216406872226,
2843
+ "grad_norm": 0.4619944095611572,
2844
+ "learning_rate": 0.0001423271790405828,
2845
+ "loss": 2.4595,
2846
+ "step": 403
2847
+ },
2848
+ {
2849
+ "epoch": 0.36773239276368186,
2850
+ "grad_norm": 0.4437786638736725,
2851
+ "learning_rate": 0.00014206563581702964,
2852
+ "loss": 2.3674,
2853
+ "step": 404
2854
+ },
2855
+ {
2856
+ "epoch": 0.36864262145864146,
2857
+ "grad_norm": 0.4789164364337921,
2858
+ "learning_rate": 0.0001418037425103795,
2859
+ "loss": 2.5203,
2860
+ "step": 405
2861
+ },
2862
+ {
2863
+ "epoch": 0.36955285015360106,
2864
+ "grad_norm": 0.44783228635787964,
2865
+ "learning_rate": 0.00014154150130018866,
2866
+ "loss": 2.5183,
2867
+ "step": 406
2868
+ },
2869
+ {
2870
+ "epoch": 0.3704630788485607,
2871
+ "grad_norm": 0.40067169070243835,
2872
+ "learning_rate": 0.00014127891436890868,
2873
+ "loss": 2.3846,
2874
+ "step": 407
2875
+ },
2876
+ {
2877
+ "epoch": 0.3713733075435203,
2878
+ "grad_norm": 0.3978015184402466,
2879
+ "learning_rate": 0.0001410159839018684,
2880
+ "loss": 2.3146,
2881
+ "step": 408
2882
+ },
2883
+ {
2884
+ "epoch": 0.37228353623847993,
2885
+ "grad_norm": 0.4096076190471649,
2886
+ "learning_rate": 0.0001407527120872557,
2887
+ "loss": 2.3617,
2888
+ "step": 409
2889
+ },
2890
+ {
2891
+ "epoch": 0.37319376493343953,
2892
+ "grad_norm": 0.4160764217376709,
2893
+ "learning_rate": 0.00014048910111609915,
2894
+ "loss": 2.2909,
2895
+ "step": 410
2896
+ },
2897
+ {
2898
+ "epoch": 0.37410399362839913,
2899
+ "grad_norm": 0.3976461887359619,
2900
+ "learning_rate": 0.0001402251531822499,
2901
+ "loss": 2.3111,
2902
+ "step": 411
2903
+ },
2904
+ {
2905
+ "epoch": 0.37501422232335874,
2906
+ "grad_norm": 0.3890199065208435,
2907
+ "learning_rate": 0.00013996087048236358,
2908
+ "loss": 2.0969,
2909
+ "step": 412
2910
+ },
2911
+ {
2912
+ "epoch": 0.37592445101831834,
2913
+ "grad_norm": 0.4157082140445709,
2914
+ "learning_rate": 0.00013969625521588158,
2915
+ "loss": 2.3205,
2916
+ "step": 413
2917
+ },
2918
+ {
2919
+ "epoch": 0.37683467971327794,
2920
+ "grad_norm": 0.4103608727455139,
2921
+ "learning_rate": 0.00013943130958501317,
2922
+ "loss": 2.2622,
2923
+ "step": 414
2924
+ },
2925
+ {
2926
+ "epoch": 0.37774490840823755,
2927
+ "grad_norm": 0.40916207432746887,
2928
+ "learning_rate": 0.00013916603579471705,
2929
+ "loss": 2.3585,
2930
+ "step": 415
2931
+ },
2932
+ {
2933
+ "epoch": 0.3786551371031972,
2934
+ "grad_norm": 0.39642858505249023,
2935
+ "learning_rate": 0.00013890043605268283,
2936
+ "loss": 2.2196,
2937
+ "step": 416
2938
+ },
2939
+ {
2940
+ "epoch": 0.3795653657981568,
2941
+ "grad_norm": 0.3851282596588135,
2942
+ "learning_rate": 0.00013863451256931287,
2943
+ "loss": 2.0298,
2944
+ "step": 417
2945
+ },
2946
+ {
2947
+ "epoch": 0.3804755944931164,
2948
+ "grad_norm": 0.38890305161476135,
2949
+ "learning_rate": 0.00013836826755770384,
2950
+ "loss": 2.1601,
2951
+ "step": 418
2952
+ },
2953
+ {
2954
+ "epoch": 0.381385823188076,
2955
+ "grad_norm": 0.41382652521133423,
2956
+ "learning_rate": 0.00013810170323362816,
2957
+ "loss": 2.2656,
2958
+ "step": 419
2959
+ },
2960
+ {
2961
+ "epoch": 0.3822960518830356,
2962
+ "grad_norm": 0.3820722699165344,
2963
+ "learning_rate": 0.0001378348218155158,
2964
+ "loss": 2.0094,
2965
+ "step": 420
2966
+ },
2967
+ {
2968
+ "epoch": 0.3832062805779952,
2969
+ "grad_norm": 0.4150048494338989,
2970
+ "learning_rate": 0.00013756762552443553,
2971
+ "loss": 2.2529,
2972
+ "step": 421
2973
+ },
2974
+ {
2975
+ "epoch": 0.3841165092729548,
2976
+ "grad_norm": 0.452776700258255,
2977
+ "learning_rate": 0.00013730011658407676,
2978
+ "loss": 2.1972,
2979
+ "step": 422
2980
+ },
2981
+ {
2982
+ "epoch": 0.3850267379679144,
2983
+ "grad_norm": 0.4173040986061096,
2984
+ "learning_rate": 0.00013703229722073065,
2985
+ "loss": 2.1502,
2986
+ "step": 423
2987
+ },
2988
+ {
2989
+ "epoch": 0.385936966662874,
2990
+ "grad_norm": 0.4115488529205322,
2991
+ "learning_rate": 0.000136764169663272,
2992
+ "loss": 1.9828,
2993
+ "step": 424
2994
+ },
2995
+ {
2996
+ "epoch": 0.38684719535783363,
2997
+ "grad_norm": 0.4060666561126709,
2998
+ "learning_rate": 0.00013649573614314044,
2999
+ "loss": 2.267,
3000
+ "step": 425
3001
+ },
3002
+ {
3003
+ "epoch": 0.3877574240527933,
3004
+ "grad_norm": 0.4049409031867981,
3005
+ "learning_rate": 0.00013622699889432184,
3006
+ "loss": 2.2044,
3007
+ "step": 426
3008
+ },
3009
+ {
3010
+ "epoch": 0.3886676527477529,
3011
+ "grad_norm": 0.40970832109451294,
3012
+ "learning_rate": 0.00013595796015332984,
3013
+ "loss": 2.0984,
3014
+ "step": 427
3015
+ },
3016
+ {
3017
+ "epoch": 0.3895778814427125,
3018
+ "grad_norm": 0.4141111671924591,
3019
+ "learning_rate": 0.00013568862215918717,
3020
+ "loss": 2.109,
3021
+ "step": 428
3022
+ },
3023
+ {
3024
+ "epoch": 0.3904881101376721,
3025
+ "grad_norm": 0.43404263257980347,
3026
+ "learning_rate": 0.00013541898715340716,
3027
+ "loss": 2.1763,
3028
+ "step": 429
3029
+ },
3030
+ {
3031
+ "epoch": 0.3913983388326317,
3032
+ "grad_norm": 0.41949963569641113,
3033
+ "learning_rate": 0.00013514905737997473,
3034
+ "loss": 2.3086,
3035
+ "step": 430
3036
+ },
3037
+ {
3038
+ "epoch": 0.3923085675275913,
3039
+ "grad_norm": 0.41665390133857727,
3040
+ "learning_rate": 0.00013487883508532815,
3041
+ "loss": 2.0726,
3042
+ "step": 431
3043
+ },
3044
+ {
3045
+ "epoch": 0.3932187962225509,
3046
+ "grad_norm": 0.4305708110332489,
3047
+ "learning_rate": 0.00013460832251834011,
3048
+ "loss": 2.1975,
3049
+ "step": 432
3050
+ },
3051
+ {
3052
+ "epoch": 0.3941290249175105,
3053
+ "grad_norm": 0.44775405526161194,
3054
+ "learning_rate": 0.00013433752193029886,
3055
+ "loss": 2.1503,
3056
+ "step": 433
3057
+ },
3058
+ {
3059
+ "epoch": 0.3950392536124701,
3060
+ "grad_norm": 0.44451820850372314,
3061
+ "learning_rate": 0.0001340664355748899,
3062
+ "loss": 2.1004,
3063
+ "step": 434
3064
+ },
3065
+ {
3066
+ "epoch": 0.39594948230742977,
3067
+ "grad_norm": 0.44242945313453674,
3068
+ "learning_rate": 0.0001337950657081768,
3069
+ "loss": 2.1074,
3070
+ "step": 435
3071
+ },
3072
+ {
3073
+ "epoch": 0.39685971100238937,
3074
+ "grad_norm": 0.4649699926376343,
3075
+ "learning_rate": 0.00013352341458858265,
3076
+ "loss": 2.2468,
3077
+ "step": 436
3078
+ },
3079
+ {
3080
+ "epoch": 0.397769939697349,
3081
+ "grad_norm": 0.4718558192253113,
3082
+ "learning_rate": 0.00013325148447687125,
3083
+ "loss": 2.225,
3084
+ "step": 437
3085
+ },
3086
+ {
3087
+ "epoch": 0.3986801683923086,
3088
+ "grad_norm": 0.44748789072036743,
3089
+ "learning_rate": 0.0001329792776361282,
3090
+ "loss": 2.0243,
3091
+ "step": 438
3092
+ },
3093
+ {
3094
+ "epoch": 0.3995903970872682,
3095
+ "grad_norm": 0.4730619192123413,
3096
+ "learning_rate": 0.00013270679633174218,
3097
+ "loss": 2.0262,
3098
+ "step": 439
3099
+ },
3100
+ {
3101
+ "epoch": 0.4005006257822278,
3102
+ "grad_norm": 0.4742071032524109,
3103
+ "learning_rate": 0.00013243404283138597,
3104
+ "loss": 2.1171,
3105
+ "step": 440
3106
+ },
3107
+ {
3108
+ "epoch": 0.4014108544771874,
3109
+ "grad_norm": 0.4963454306125641,
3110
+ "learning_rate": 0.00013216101940499768,
3111
+ "loss": 2.051,
3112
+ "step": 441
3113
+ },
3114
+ {
3115
+ "epoch": 0.402321083172147,
3116
+ "grad_norm": 0.5127780437469482,
3117
+ "learning_rate": 0.00013188772832476188,
3118
+ "loss": 2.1664,
3119
+ "step": 442
3120
+ },
3121
+ {
3122
+ "epoch": 0.4032313118671066,
3123
+ "grad_norm": 0.5129209756851196,
3124
+ "learning_rate": 0.00013161417186509052,
3125
+ "loss": 2.2272,
3126
+ "step": 443
3127
+ },
3128
+ {
3129
+ "epoch": 0.4041415405620662,
3130
+ "grad_norm": 0.5068848133087158,
3131
+ "learning_rate": 0.00013134035230260427,
3132
+ "loss": 2.1007,
3133
+ "step": 444
3134
+ },
3135
+ {
3136
+ "epoch": 0.40505176925702585,
3137
+ "grad_norm": 0.5721228718757629,
3138
+ "learning_rate": 0.00013106627191611332,
3139
+ "loss": 2.255,
3140
+ "step": 445
3141
+ },
3142
+ {
3143
+ "epoch": 0.40596199795198545,
3144
+ "grad_norm": 0.6085918545722961,
3145
+ "learning_rate": 0.0001307919329865985,
3146
+ "loss": 2.456,
3147
+ "step": 446
3148
+ },
3149
+ {
3150
+ "epoch": 0.40687222664694506,
3151
+ "grad_norm": 0.6652196645736694,
3152
+ "learning_rate": 0.00013051733779719234,
3153
+ "loss": 2.5504,
3154
+ "step": 447
3155
+ },
3156
+ {
3157
+ "epoch": 0.40778245534190466,
3158
+ "grad_norm": 0.7234418392181396,
3159
+ "learning_rate": 0.00013024248863316012,
3160
+ "loss": 2.5796,
3161
+ "step": 448
3162
+ },
3163
+ {
3164
+ "epoch": 0.40869268403686426,
3165
+ "grad_norm": 0.8588744401931763,
3166
+ "learning_rate": 0.00012996738778188067,
3167
+ "loss": 2.5756,
3168
+ "step": 449
3169
+ },
3170
+ {
3171
+ "epoch": 0.40960291273182386,
3172
+ "grad_norm": 1.2627683877944946,
3173
+ "learning_rate": 0.0001296920375328275,
3174
+ "loss": 2.203,
3175
+ "step": 450
3176
+ },
3177
+ {
3178
+ "epoch": 0.41051314142678347,
3179
+ "grad_norm": 0.4838164746761322,
3180
+ "learning_rate": 0.00012941644017754964,
3181
+ "loss": 2.434,
3182
+ "step": 451
3183
+ },
3184
+ {
3185
+ "epoch": 0.41142337012174307,
3186
+ "grad_norm": 0.44005534052848816,
3187
+ "learning_rate": 0.00012914059800965268,
3188
+ "loss": 2.55,
3189
+ "step": 452
3190
+ },
3191
+ {
3192
+ "epoch": 0.4123335988167027,
3193
+ "grad_norm": 0.4343414604663849,
3194
+ "learning_rate": 0.0001288645133247795,
3195
+ "loss": 2.432,
3196
+ "step": 453
3197
+ },
3198
+ {
3199
+ "epoch": 0.41324382751166233,
3200
+ "grad_norm": 0.4588654339313507,
3201
+ "learning_rate": 0.00012858818842059145,
3202
+ "loss": 2.4434,
3203
+ "step": 454
3204
+ },
3205
+ {
3206
+ "epoch": 0.41415405620662193,
3207
+ "grad_norm": 0.4294244647026062,
3208
+ "learning_rate": 0.00012831162559674887,
3209
+ "loss": 2.4241,
3210
+ "step": 455
3211
+ },
3212
+ {
3213
+ "epoch": 0.41506428490158154,
3214
+ "grad_norm": 0.40034809708595276,
3215
+ "learning_rate": 0.0001280348271548923,
3216
+ "loss": 2.3191,
3217
+ "step": 456
3218
+ },
3219
+ {
3220
+ "epoch": 0.41597451359654114,
3221
+ "grad_norm": 0.40817153453826904,
3222
+ "learning_rate": 0.00012775779539862304,
3223
+ "loss": 2.589,
3224
+ "step": 457
3225
+ },
3226
+ {
3227
+ "epoch": 0.41688474229150074,
3228
+ "grad_norm": 0.40605810284614563,
3229
+ "learning_rate": 0.0001274805326334842,
3230
+ "loss": 2.3445,
3231
+ "step": 458
3232
+ },
3233
+ {
3234
+ "epoch": 0.41779497098646035,
3235
+ "grad_norm": 0.4386533200740814,
3236
+ "learning_rate": 0.00012720304116694138,
3237
+ "loss": 2.4002,
3238
+ "step": 459
3239
+ },
3240
+ {
3241
+ "epoch": 0.41870519968141995,
3242
+ "grad_norm": 0.40985172986984253,
3243
+ "learning_rate": 0.00012692532330836346,
3244
+ "loss": 2.3964,
3245
+ "step": 460
3246
+ },
3247
+ {
3248
+ "epoch": 0.41961542837637955,
3249
+ "grad_norm": 0.4220562279224396,
3250
+ "learning_rate": 0.00012664738136900348,
3251
+ "loss": 2.3145,
3252
+ "step": 461
3253
+ },
3254
+ {
3255
+ "epoch": 0.42052565707133915,
3256
+ "grad_norm": 0.4068267047405243,
3257
+ "learning_rate": 0.00012636921766197943,
3258
+ "loss": 2.3274,
3259
+ "step": 462
3260
+ },
3261
+ {
3262
+ "epoch": 0.42143588576629876,
3263
+ "grad_norm": 0.3973187208175659,
3264
+ "learning_rate": 0.0001260908345022547,
3265
+ "loss": 2.1801,
3266
+ "step": 463
3267
+ },
3268
+ {
3269
+ "epoch": 0.4223461144612584,
3270
+ "grad_norm": 0.432224303483963,
3271
+ "learning_rate": 0.00012581223420661913,
3272
+ "loss": 2.4079,
3273
+ "step": 464
3274
+ },
3275
+ {
3276
+ "epoch": 0.423256343156218,
3277
+ "grad_norm": 0.3939046859741211,
3278
+ "learning_rate": 0.00012553341909366978,
3279
+ "loss": 2.0749,
3280
+ "step": 465
3281
+ },
3282
+ {
3283
+ "epoch": 0.4241665718511776,
3284
+ "grad_norm": 0.36949658393859863,
3285
+ "learning_rate": 0.00012525439148379128,
3286
+ "loss": 2.1471,
3287
+ "step": 466
3288
+ },
3289
+ {
3290
+ "epoch": 0.4250768005461372,
3291
+ "grad_norm": 0.3828236758708954,
3292
+ "learning_rate": 0.00012497515369913685,
3293
+ "loss": 2.0466,
3294
+ "step": 467
3295
+ },
3296
+ {
3297
+ "epoch": 0.4259870292410968,
3298
+ "grad_norm": 0.3874993920326233,
3299
+ "learning_rate": 0.00012469570806360875,
3300
+ "loss": 2.1605,
3301
+ "step": 468
3302
+ },
3303
+ {
3304
+ "epoch": 0.42689725793605643,
3305
+ "grad_norm": 0.3854924738407135,
3306
+ "learning_rate": 0.00012441605690283915,
3307
+ "loss": 2.0584,
3308
+ "step": 469
3309
+ },
3310
+ {
3311
+ "epoch": 0.42780748663101603,
3312
+ "grad_norm": 0.40301740169525146,
3313
+ "learning_rate": 0.00012413620254417057,
3314
+ "loss": 2.1481,
3315
+ "step": 470
3316
+ },
3317
+ {
3318
+ "epoch": 0.42871771532597563,
3319
+ "grad_norm": 0.3891369104385376,
3320
+ "learning_rate": 0.00012385614731663666,
3321
+ "loss": 2.1968,
3322
+ "step": 471
3323
+ },
3324
+ {
3325
+ "epoch": 0.42962794402093524,
3326
+ "grad_norm": 0.4305795729160309,
3327
+ "learning_rate": 0.00012357589355094275,
3328
+ "loss": 2.0421,
3329
+ "step": 472
3330
+ },
3331
+ {
3332
+ "epoch": 0.4305381727158949,
3333
+ "grad_norm": 0.44661635160446167,
3334
+ "learning_rate": 0.0001232954435794464,
3335
+ "loss": 2.3347,
3336
+ "step": 473
3337
+ },
3338
+ {
3339
+ "epoch": 0.4314484014108545,
3340
+ "grad_norm": 0.3984116315841675,
3341
+ "learning_rate": 0.00012301479973613822,
3342
+ "loss": 2.1093,
3343
+ "step": 474
3344
+ },
3345
+ {
3346
+ "epoch": 0.4323586301058141,
3347
+ "grad_norm": 0.4153747856616974,
3348
+ "learning_rate": 0.00012273396435662212,
3349
+ "loss": 2.0698,
3350
+ "step": 475
3351
+ },
3352
+ {
3353
+ "epoch": 0.4332688588007737,
3354
+ "grad_norm": 0.4589189887046814,
3355
+ "learning_rate": 0.00012245293977809605,
3356
+ "loss": 2.1707,
3357
+ "step": 476
3358
+ },
3359
+ {
3360
+ "epoch": 0.4341790874957333,
3361
+ "grad_norm": 0.43936577439308167,
3362
+ "learning_rate": 0.0001221717283393326,
3363
+ "loss": 2.2608,
3364
+ "step": 477
3365
+ },
3366
+ {
3367
+ "epoch": 0.4350893161906929,
3368
+ "grad_norm": 0.4170132279396057,
3369
+ "learning_rate": 0.0001218903323806595,
3370
+ "loss": 2.0813,
3371
+ "step": 478
3372
+ },
3373
+ {
3374
+ "epoch": 0.4359995448856525,
3375
+ "grad_norm": 0.43124523758888245,
3376
+ "learning_rate": 0.00012160875424393996,
3377
+ "loss": 2.1674,
3378
+ "step": 479
3379
+ },
3380
+ {
3381
+ "epoch": 0.4369097735806121,
3382
+ "grad_norm": 0.4394627511501312,
3383
+ "learning_rate": 0.00012132699627255347,
3384
+ "loss": 2.1904,
3385
+ "step": 480
3386
+ },
3387
+ {
3388
+ "epoch": 0.4378200022755717,
3389
+ "grad_norm": 0.4404590427875519,
3390
+ "learning_rate": 0.00012104506081137608,
3391
+ "loss": 2.1313,
3392
+ "step": 481
3393
+ },
3394
+ {
3395
+ "epoch": 0.4387302309705313,
3396
+ "grad_norm": 0.4580220878124237,
3397
+ "learning_rate": 0.00012076295020676103,
3398
+ "loss": 2.16,
3399
+ "step": 482
3400
+ },
3401
+ {
3402
+ "epoch": 0.439640459665491,
3403
+ "grad_norm": 0.4533630311489105,
3404
+ "learning_rate": 0.00012048066680651908,
3405
+ "loss": 2.1153,
3406
+ "step": 483
3407
+ },
3408
+ {
3409
+ "epoch": 0.4405506883604506,
3410
+ "grad_norm": 0.47520536184310913,
3411
+ "learning_rate": 0.00012019821295989912,
3412
+ "loss": 2.2152,
3413
+ "step": 484
3414
+ },
3415
+ {
3416
+ "epoch": 0.4414609170554102,
3417
+ "grad_norm": 0.44196072220802307,
3418
+ "learning_rate": 0.00011991559101756852,
3419
+ "loss": 2.1375,
3420
+ "step": 485
3421
+ },
3422
+ {
3423
+ "epoch": 0.4423711457503698,
3424
+ "grad_norm": 0.43681493401527405,
3425
+ "learning_rate": 0.00011963280333159358,
3426
+ "loss": 2.0552,
3427
+ "step": 486
3428
+ },
3429
+ {
3430
+ "epoch": 0.4432813744453294,
3431
+ "grad_norm": 0.4537602961063385,
3432
+ "learning_rate": 0.00011934985225541998,
3433
+ "loss": 2.1473,
3434
+ "step": 487
3435
+ },
3436
+ {
3437
+ "epoch": 0.444191603140289,
3438
+ "grad_norm": 0.4935773015022278,
3439
+ "learning_rate": 0.00011906674014385318,
3440
+ "loss": 2.0623,
3441
+ "step": 488
3442
+ },
3443
+ {
3444
+ "epoch": 0.4451018318352486,
3445
+ "grad_norm": 0.4802737236022949,
3446
+ "learning_rate": 0.00011878346935303883,
3447
+ "loss": 2.2908,
3448
+ "step": 489
3449
+ },
3450
+ {
3451
+ "epoch": 0.4460120605302082,
3452
+ "grad_norm": 0.5020537376403809,
3453
+ "learning_rate": 0.00011850004224044315,
3454
+ "loss": 2.3101,
3455
+ "step": 490
3456
+ },
3457
+ {
3458
+ "epoch": 0.4469222892251678,
3459
+ "grad_norm": 0.5106056332588196,
3460
+ "learning_rate": 0.00011821646116483335,
3461
+ "loss": 2.2838,
3462
+ "step": 491
3463
+ },
3464
+ {
3465
+ "epoch": 0.44783251792012746,
3466
+ "grad_norm": 0.473910391330719,
3467
+ "learning_rate": 0.00011793272848625797,
3468
+ "loss": 2.0599,
3469
+ "step": 492
3470
+ },
3471
+ {
3472
+ "epoch": 0.44874274661508706,
3473
+ "grad_norm": 0.5086584091186523,
3474
+ "learning_rate": 0.0001176488465660271,
3475
+ "loss": 2.1578,
3476
+ "step": 493
3477
+ },
3478
+ {
3479
+ "epoch": 0.44965297531004667,
3480
+ "grad_norm": 0.5282394886016846,
3481
+ "learning_rate": 0.00011736481776669306,
3482
+ "loss": 2.2965,
3483
+ "step": 494
3484
+ },
3485
+ {
3486
+ "epoch": 0.45056320400500627,
3487
+ "grad_norm": 0.5987780094146729,
3488
+ "learning_rate": 0.00011708064445203042,
3489
+ "loss": 2.3542,
3490
+ "step": 495
3491
+ },
3492
+ {
3493
+ "epoch": 0.45147343269996587,
3494
+ "grad_norm": 0.5943189859390259,
3495
+ "learning_rate": 0.00011679632898701649,
3496
+ "loss": 2.4294,
3497
+ "step": 496
3498
+ },
3499
+ {
3500
+ "epoch": 0.4523836613949255,
3501
+ "grad_norm": 0.6443737149238586,
3502
+ "learning_rate": 0.0001165118737378116,
3503
+ "loss": 2.605,
3504
+ "step": 497
3505
+ },
3506
+ {
3507
+ "epoch": 0.4532938900898851,
3508
+ "grad_norm": 0.7082577347755432,
3509
+ "learning_rate": 0.00011622728107173946,
3510
+ "loss": 2.4254,
3511
+ "step": 498
3512
+ },
3513
+ {
3514
+ "epoch": 0.4542041187848447,
3515
+ "grad_norm": 0.8503845930099487,
3516
+ "learning_rate": 0.00011594255335726724,
3517
+ "loss": 2.5187,
3518
+ "step": 499
3519
+ },
3520
+ {
3521
+ "epoch": 0.4551143474798043,
3522
+ "grad_norm": 1.6775977611541748,
3523
+ "learning_rate": 0.00011565769296398618,
3524
+ "loss": 2.6669,
3525
+ "step": 500
3526
+ },
3527
+ {
3528
+ "epoch": 0.4560245761747639,
3529
+ "grad_norm": 0.45572495460510254,
3530
+ "learning_rate": 0.00011537270226259169,
3531
+ "loss": 2.5806,
3532
+ "step": 501
3533
+ },
3534
+ {
3535
+ "epoch": 0.45693480486972354,
3536
+ "grad_norm": 0.45138293504714966,
3537
+ "learning_rate": 0.00011508758362486358,
3538
+ "loss": 2.3935,
3539
+ "step": 502
3540
+ },
3541
+ {
3542
+ "epoch": 0.45784503356468315,
3543
+ "grad_norm": 0.4548013210296631,
3544
+ "learning_rate": 0.00011480233942364645,
3545
+ "loss": 2.321,
3546
+ "step": 503
3547
+ },
3548
+ {
3549
+ "epoch": 0.45875526225964275,
3550
+ "grad_norm": 0.434442400932312,
3551
+ "learning_rate": 0.00011451697203282982,
3552
+ "loss": 2.375,
3553
+ "step": 504
3554
+ },
3555
+ {
3556
+ "epoch": 0.45966549095460235,
3557
+ "grad_norm": 0.4139295816421509,
3558
+ "learning_rate": 0.00011423148382732853,
3559
+ "loss": 2.3997,
3560
+ "step": 505
3561
+ },
3562
+ {
3563
+ "epoch": 0.46057571964956195,
3564
+ "grad_norm": 0.46020230650901794,
3565
+ "learning_rate": 0.00011394587718306275,
3566
+ "loss": 2.5745,
3567
+ "step": 506
3568
+ },
3569
+ {
3570
+ "epoch": 0.46148594834452156,
3571
+ "grad_norm": 0.4194343090057373,
3572
+ "learning_rate": 0.00011366015447693837,
3573
+ "loss": 2.2597,
3574
+ "step": 507
3575
+ },
3576
+ {
3577
+ "epoch": 0.46239617703948116,
3578
+ "grad_norm": 0.43983832001686096,
3579
+ "learning_rate": 0.0001133743180868273,
3580
+ "loss": 2.3511,
3581
+ "step": 508
3582
+ },
3583
+ {
3584
+ "epoch": 0.46330640573444076,
3585
+ "grad_norm": 0.41047292947769165,
3586
+ "learning_rate": 0.00011308837039154739,
3587
+ "loss": 2.2614,
3588
+ "step": 509
3589
+ },
3590
+ {
3591
+ "epoch": 0.46421663442940037,
3592
+ "grad_norm": 0.4110110104084015,
3593
+ "learning_rate": 0.0001128023137708429,
3594
+ "loss": 2.2719,
3595
+ "step": 510
3596
+ },
3597
+ {
3598
+ "epoch": 0.46512686312435997,
3599
+ "grad_norm": 0.41848358511924744,
3600
+ "learning_rate": 0.0001125161506053646,
3601
+ "loss": 2.3872,
3602
+ "step": 511
3603
+ },
3604
+ {
3605
+ "epoch": 0.4660370918193196,
3606
+ "grad_norm": 0.39852631092071533,
3607
+ "learning_rate": 0.00011222988327664997,
3608
+ "loss": 2.2001,
3609
+ "step": 512
3610
+ },
3611
+ {
3612
+ "epoch": 0.46694732051427923,
3613
+ "grad_norm": 0.4060978293418884,
3614
+ "learning_rate": 0.00011194351416710324,
3615
+ "loss": 2.2474,
3616
+ "step": 513
3617
+ },
3618
+ {
3619
+ "epoch": 0.46785754920923883,
3620
+ "grad_norm": 0.4010358452796936,
3621
+ "learning_rate": 0.00011165704565997593,
3622
+ "loss": 2.1262,
3623
+ "step": 514
3624
+ },
3625
+ {
3626
+ "epoch": 0.46876777790419843,
3627
+ "grad_norm": 0.4063378572463989,
3628
+ "learning_rate": 0.00011137048013934656,
3629
+ "loss": 2.1583,
3630
+ "step": 515
3631
+ },
3632
+ {
3633
+ "epoch": 0.46967800659915804,
3634
+ "grad_norm": 0.40287846326828003,
3635
+ "learning_rate": 0.00011108381999010111,
3636
+ "loss": 2.2351,
3637
+ "step": 516
3638
+ },
3639
+ {
3640
+ "epoch": 0.47058823529411764,
3641
+ "grad_norm": 0.3861018717288971,
3642
+ "learning_rate": 0.00011079706759791311,
3643
+ "loss": 2.195,
3644
+ "step": 517
3645
+ },
3646
+ {
3647
+ "epoch": 0.47149846398907724,
3648
+ "grad_norm": 0.38855546712875366,
3649
+ "learning_rate": 0.00011051022534922371,
3650
+ "loss": 2.1575,
3651
+ "step": 518
3652
+ },
3653
+ {
3654
+ "epoch": 0.47240869268403685,
3655
+ "grad_norm": 0.3941628038883209,
3656
+ "learning_rate": 0.00011022329563122191,
3657
+ "loss": 2.2324,
3658
+ "step": 519
3659
+ },
3660
+ {
3661
+ "epoch": 0.47331892137899645,
3662
+ "grad_norm": 0.40604814887046814,
3663
+ "learning_rate": 0.00010993628083182467,
3664
+ "loss": 2.1641,
3665
+ "step": 520
3666
+ },
3667
+ {
3668
+ "epoch": 0.4742291500739561,
3669
+ "grad_norm": 0.407815158367157,
3670
+ "learning_rate": 0.000109649183339657,
3671
+ "loss": 2.1648,
3672
+ "step": 521
3673
+ },
3674
+ {
3675
+ "epoch": 0.4751393787689157,
3676
+ "grad_norm": 0.400680810213089,
3677
+ "learning_rate": 0.00010936200554403209,
3678
+ "loss": 2.1939,
3679
+ "step": 522
3680
+ },
3681
+ {
3682
+ "epoch": 0.4760496074638753,
3683
+ "grad_norm": 0.416537344455719,
3684
+ "learning_rate": 0.00010907474983493144,
3685
+ "loss": 2.1694,
3686
+ "step": 523
3687
+ },
3688
+ {
3689
+ "epoch": 0.4769598361588349,
3690
+ "grad_norm": 0.4097869396209717,
3691
+ "learning_rate": 0.00010878741860298503,
3692
+ "loss": 2.1785,
3693
+ "step": 524
3694
+ },
3695
+ {
3696
+ "epoch": 0.4778700648537945,
3697
+ "grad_norm": 0.4243004024028778,
3698
+ "learning_rate": 0.00010850001423945126,
3699
+ "loss": 1.9963,
3700
+ "step": 525
3701
+ },
3702
+ {
3703
+ "epoch": 0.4787802935487541,
3704
+ "grad_norm": 0.41958731412887573,
3705
+ "learning_rate": 0.00010821253913619726,
3706
+ "loss": 2.1629,
3707
+ "step": 526
3708
+ },
3709
+ {
3710
+ "epoch": 0.4796905222437137,
3711
+ "grad_norm": 0.4177284240722656,
3712
+ "learning_rate": 0.00010792499568567884,
3713
+ "loss": 2.1276,
3714
+ "step": 527
3715
+ },
3716
+ {
3717
+ "epoch": 0.4806007509386733,
3718
+ "grad_norm": 0.41077664494514465,
3719
+ "learning_rate": 0.00010763738628092062,
3720
+ "loss": 2.0852,
3721
+ "step": 528
3722
+ },
3723
+ {
3724
+ "epoch": 0.48151097963363293,
3725
+ "grad_norm": 0.4098223149776459,
3726
+ "learning_rate": 0.00010734971331549603,
3727
+ "loss": 1.9977,
3728
+ "step": 529
3729
+ },
3730
+ {
3731
+ "epoch": 0.48242120832859253,
3732
+ "grad_norm": 0.42255935072898865,
3733
+ "learning_rate": 0.00010706197918350758,
3734
+ "loss": 1.9822,
3735
+ "step": 530
3736
+ },
3737
+ {
3738
+ "epoch": 0.4833314370235522,
3739
+ "grad_norm": 0.45597127079963684,
3740
+ "learning_rate": 0.0001067741862795668,
3741
+ "loss": 2.1072,
3742
+ "step": 531
3743
+ },
3744
+ {
3745
+ "epoch": 0.4842416657185118,
3746
+ "grad_norm": 0.4538208544254303,
3747
+ "learning_rate": 0.0001064863369987743,
3748
+ "loss": 2.41,
3749
+ "step": 532
3750
+ },
3751
+ {
3752
+ "epoch": 0.4851518944134714,
3753
+ "grad_norm": 0.4586673676967621,
3754
+ "learning_rate": 0.00010619843373669993,
3755
+ "loss": 2.1736,
3756
+ "step": 533
3757
+ },
3758
+ {
3759
+ "epoch": 0.486062123108431,
3760
+ "grad_norm": 0.4433608055114746,
3761
+ "learning_rate": 0.00010591047888936274,
3762
+ "loss": 2.1324,
3763
+ "step": 534
3764
+ },
3765
+ {
3766
+ "epoch": 0.4869723518033906,
3767
+ "grad_norm": 0.4421234428882599,
3768
+ "learning_rate": 0.00010562247485321115,
3769
+ "loss": 2.0689,
3770
+ "step": 535
3771
+ },
3772
+ {
3773
+ "epoch": 0.4878825804983502,
3774
+ "grad_norm": 0.46843069791793823,
3775
+ "learning_rate": 0.00010533442402510284,
3776
+ "loss": 2.2252,
3777
+ "step": 536
3778
+ },
3779
+ {
3780
+ "epoch": 0.4887928091933098,
3781
+ "grad_norm": 0.4747142493724823,
3782
+ "learning_rate": 0.00010504632880228498,
3783
+ "loss": 2.2503,
3784
+ "step": 537
3785
+ },
3786
+ {
3787
+ "epoch": 0.4897030378882694,
3788
+ "grad_norm": 0.46643224358558655,
3789
+ "learning_rate": 0.00010475819158237425,
3790
+ "loss": 2.2628,
3791
+ "step": 538
3792
+ },
3793
+ {
3794
+ "epoch": 0.490613266583229,
3795
+ "grad_norm": 0.47085490822792053,
3796
+ "learning_rate": 0.00010447001476333673,
3797
+ "loss": 2.0888,
3798
+ "step": 539
3799
+ },
3800
+ {
3801
+ "epoch": 0.49152349527818867,
3802
+ "grad_norm": 0.5102598071098328,
3803
+ "learning_rate": 0.00010418180074346815,
3804
+ "loss": 2.2736,
3805
+ "step": 540
3806
+ },
3807
+ {
3808
+ "epoch": 0.4924337239731483,
3809
+ "grad_norm": 0.49878573417663574,
3810
+ "learning_rate": 0.00010389355192137377,
3811
+ "loss": 2.1107,
3812
+ "step": 541
3813
+ },
3814
+ {
3815
+ "epoch": 0.4933439526681079,
3816
+ "grad_norm": 0.5236616134643555,
3817
+ "learning_rate": 0.00010360527069594859,
3818
+ "loss": 2.4099,
3819
+ "step": 542
3820
+ },
3821
+ {
3822
+ "epoch": 0.4942541813630675,
3823
+ "grad_norm": 0.49875032901763916,
3824
+ "learning_rate": 0.00010331695946635708,
3825
+ "loss": 2.1381,
3826
+ "step": 543
3827
+ },
3828
+ {
3829
+ "epoch": 0.4951644100580271,
3830
+ "grad_norm": 0.5333012938499451,
3831
+ "learning_rate": 0.00010302862063201367,
3832
+ "loss": 2.2274,
3833
+ "step": 544
3834
+ },
3835
+ {
3836
+ "epoch": 0.4960746387529867,
3837
+ "grad_norm": 0.5504993200302124,
3838
+ "learning_rate": 0.00010274025659256232,
3839
+ "loss": 2.2348,
3840
+ "step": 545
3841
+ },
3842
+ {
3843
+ "epoch": 0.4969848674479463,
3844
+ "grad_norm": 0.5924202799797058,
3845
+ "learning_rate": 0.00010245186974785685,
3846
+ "loss": 2.3686,
3847
+ "step": 546
3848
+ },
3849
+ {
3850
+ "epoch": 0.4978950961429059,
3851
+ "grad_norm": 0.6003567576408386,
3852
+ "learning_rate": 0.00010216346249794087,
3853
+ "loss": 2.3336,
3854
+ "step": 547
3855
+ },
3856
+ {
3857
+ "epoch": 0.4988053248378655,
3858
+ "grad_norm": 0.6700019836425781,
3859
+ "learning_rate": 0.00010187503724302776,
3860
+ "loss": 2.4446,
3861
+ "step": 548
3862
+ },
3863
+ {
3864
+ "epoch": 0.4997155535328251,
3865
+ "grad_norm": 0.8171781897544861,
3866
+ "learning_rate": 0.00010158659638348081,
3867
+ "loss": 2.4278,
3868
+ "step": 549
3869
+ },
3870
+ {
3871
+ "epoch": 0.5006257822277848,
3872
+ "grad_norm": 1.4212020635604858,
3873
+ "learning_rate": 0.0001012981423197931,
3874
+ "loss": 2.6229,
3875
+ "step": 550
3876
+ },
3877
+ {
3878
+ "epoch": 0.5006257822277848,
3879
+ "eval_loss": 2.2479705810546875,
3880
+ "eval_runtime": 205.3622,
3881
+ "eval_samples_per_second": 9.013,
3882
+ "eval_steps_per_second": 4.509,
3883
+ "step": 550
3884
  }
3885
  ],
3886
  "logging_steps": 1,
 
3900
  "attributes": {}
3901
  }
3902
  },
3903
+ "total_flos": 1.0074178982447677e+18,
3904
  "train_batch_size": 2,
3905
  "trial_name": null,
3906
  "trial_params": null