LegrandFrederic commited on
Commit
c0710e2
·
verified ·
1 Parent(s): bbcb4a2

Upload trainer_state.json with huggingface_hub

Browse files
Files changed (1) hide show
  1. trainer_state.json +1057 -0
trainer_state.json ADDED
@@ -0,0 +1,1057 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 2.5,
5
+ "eval_steps": 500,
6
+ "global_step": 1455,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.01718213058419244,
13
+ "grad_norm": 4.919781684875488,
14
+ "learning_rate": 2.7397260273972603e-05,
15
+ "loss": 0.9081,
16
+ "step": 10
17
+ },
18
+ {
19
+ "epoch": 0.03436426116838488,
20
+ "grad_norm": 5.393226623535156,
21
+ "learning_rate": 5.479452054794521e-05,
22
+ "loss": 0.4511,
23
+ "step": 20
24
+ },
25
+ {
26
+ "epoch": 0.05154639175257732,
27
+ "grad_norm": 2.135725259780884,
28
+ "learning_rate": 8.219178082191781e-05,
29
+ "loss": 0.289,
30
+ "step": 30
31
+ },
32
+ {
33
+ "epoch": 0.06872852233676977,
34
+ "grad_norm": 2.005138397216797,
35
+ "learning_rate": 0.00010958904109589041,
36
+ "loss": 0.2236,
37
+ "step": 40
38
+ },
39
+ {
40
+ "epoch": 0.0859106529209622,
41
+ "grad_norm": 2.274747371673584,
42
+ "learning_rate": 0.000136986301369863,
43
+ "loss": 0.2057,
44
+ "step": 50
45
+ },
46
+ {
47
+ "epoch": 0.10309278350515463,
48
+ "grad_norm": 2.1100614070892334,
49
+ "learning_rate": 0.00016438356164383562,
50
+ "loss": 0.1831,
51
+ "step": 60
52
+ },
53
+ {
54
+ "epoch": 0.12027491408934708,
55
+ "grad_norm": 0.9432219862937927,
56
+ "learning_rate": 0.0001917808219178082,
57
+ "loss": 0.1452,
58
+ "step": 70
59
+ },
60
+ {
61
+ "epoch": 0.13745704467353953,
62
+ "grad_norm": 1.4754092693328857,
63
+ "learning_rate": 0.00019998733979961563,
64
+ "loss": 0.1496,
65
+ "step": 80
66
+ },
67
+ {
68
+ "epoch": 0.15463917525773196,
69
+ "grad_norm": 1.504097580909729,
70
+ "learning_rate": 0.0001999253383717226,
71
+ "loss": 0.1542,
72
+ "step": 90
73
+ },
74
+ {
75
+ "epoch": 0.1718213058419244,
76
+ "grad_norm": 1.2584880590438843,
77
+ "learning_rate": 0.00019981170237143067,
78
+ "loss": 0.1341,
79
+ "step": 100
80
+ },
81
+ {
82
+ "epoch": 0.18900343642611683,
83
+ "grad_norm": 1.030260443687439,
84
+ "learning_rate": 0.00019964649051804355,
85
+ "loss": 0.1153,
86
+ "step": 110
87
+ },
88
+ {
89
+ "epoch": 0.20618556701030927,
90
+ "grad_norm": 0.6816794276237488,
91
+ "learning_rate": 0.000199429788181734,
92
+ "loss": 0.1458,
93
+ "step": 120
94
+ },
95
+ {
96
+ "epoch": 0.22336769759450173,
97
+ "grad_norm": 1.3301407098770142,
98
+ "learning_rate": 0.0001991617073394306,
99
+ "loss": 0.0968,
100
+ "step": 130
101
+ },
102
+ {
103
+ "epoch": 0.24054982817869416,
104
+ "grad_norm": 1.0439300537109375,
105
+ "learning_rate": 0.00019884238651695556,
106
+ "loss": 0.1089,
107
+ "step": 140
108
+ },
109
+ {
110
+ "epoch": 0.25773195876288657,
111
+ "grad_norm": 1.2270495891571045,
112
+ "learning_rate": 0.00019847199071744415,
113
+ "loss": 0.1115,
114
+ "step": 150
115
+ },
116
+ {
117
+ "epoch": 0.27491408934707906,
118
+ "grad_norm": 0.5990088582038879,
119
+ "learning_rate": 0.00019805071133608242,
120
+ "loss": 0.101,
121
+ "step": 160
122
+ },
123
+ {
124
+ "epoch": 0.2920962199312715,
125
+ "grad_norm": 0.9263975024223328,
126
+ "learning_rate": 0.0001975787660612072,
127
+ "loss": 0.0987,
128
+ "step": 170
129
+ },
130
+ {
131
+ "epoch": 0.30927835051546393,
132
+ "grad_norm": 0.6488857865333557,
133
+ "learning_rate": 0.00019705639876181969,
134
+ "loss": 0.0761,
135
+ "step": 180
136
+ },
137
+ {
138
+ "epoch": 0.32646048109965636,
139
+ "grad_norm": 1.0950772762298584,
140
+ "learning_rate": 0.00019648387936157068,
141
+ "loss": 0.1128,
142
+ "step": 190
143
+ },
144
+ {
145
+ "epoch": 0.3436426116838488,
146
+ "grad_norm": 1.5179388523101807,
147
+ "learning_rate": 0.00019586150369928245,
148
+ "loss": 0.1069,
149
+ "step": 200
150
+ },
151
+ {
152
+ "epoch": 0.36082474226804123,
153
+ "grad_norm": 0.7192593216896057,
154
+ "learning_rate": 0.00019518959337607957,
155
+ "loss": 0.0902,
156
+ "step": 210
157
+ },
158
+ {
159
+ "epoch": 0.37800687285223367,
160
+ "grad_norm": 0.8463940620422363,
161
+ "learning_rate": 0.0001944684955892075,
162
+ "loss": 0.0883,
163
+ "step": 220
164
+ },
165
+ {
166
+ "epoch": 0.3951890034364261,
167
+ "grad_norm": 0.8777188658714294,
168
+ "learning_rate": 0.0001936985829526247,
169
+ "loss": 0.0783,
170
+ "step": 230
171
+ },
172
+ {
173
+ "epoch": 0.41237113402061853,
174
+ "grad_norm": 0.8422673940658569,
175
+ "learning_rate": 0.00019288025330446126,
176
+ "loss": 0.0842,
177
+ "step": 240
178
+ },
179
+ {
180
+ "epoch": 0.42955326460481097,
181
+ "grad_norm": 0.7569606900215149,
182
+ "learning_rate": 0.00019201392950144363,
183
+ "loss": 0.0765,
184
+ "step": 250
185
+ },
186
+ {
187
+ "epoch": 0.44673539518900346,
188
+ "grad_norm": 0.7297337055206299,
189
+ "learning_rate": 0.0001911000592003909,
190
+ "loss": 0.0763,
191
+ "step": 260
192
+ },
193
+ {
194
+ "epoch": 0.4639175257731959,
195
+ "grad_norm": 0.570925772190094,
196
+ "learning_rate": 0.00019013911462689668,
197
+ "loss": 0.0687,
198
+ "step": 270
199
+ },
200
+ {
201
+ "epoch": 0.48109965635738833,
202
+ "grad_norm": 0.7235879302024841,
203
+ "learning_rate": 0.000189131592331315,
204
+ "loss": 0.0884,
205
+ "step": 280
206
+ },
207
+ {
208
+ "epoch": 0.49828178694158076,
209
+ "grad_norm": 0.3659440875053406,
210
+ "learning_rate": 0.00018807801293217735,
211
+ "loss": 0.0613,
212
+ "step": 290
213
+ },
214
+ {
215
+ "epoch": 0.5154639175257731,
216
+ "grad_norm": 0.5860876441001892,
217
+ "learning_rate": 0.00018697892084717238,
218
+ "loss": 0.0739,
219
+ "step": 300
220
+ },
221
+ {
222
+ "epoch": 0.5326460481099656,
223
+ "grad_norm": 0.7031033039093018,
224
+ "learning_rate": 0.00018583488401182843,
225
+ "loss": 0.0637,
226
+ "step": 310
227
+ },
228
+ {
229
+ "epoch": 0.5498281786941581,
230
+ "grad_norm": 0.6644700765609741,
231
+ "learning_rate": 0.0001846464935860431,
232
+ "loss": 0.0682,
233
+ "step": 320
234
+ },
235
+ {
236
+ "epoch": 0.5670103092783505,
237
+ "grad_norm": 0.7531244158744812,
238
+ "learning_rate": 0.0001834143636486124,
239
+ "loss": 0.0723,
240
+ "step": 330
241
+ },
242
+ {
243
+ "epoch": 0.584192439862543,
244
+ "grad_norm": 0.7708925008773804,
245
+ "learning_rate": 0.00018213913087991685,
246
+ "loss": 0.0619,
247
+ "step": 340
248
+ },
249
+ {
250
+ "epoch": 0.6013745704467354,
251
+ "grad_norm": 0.716632604598999,
252
+ "learning_rate": 0.00018082145423292868,
253
+ "loss": 0.0613,
254
+ "step": 350
255
+ },
256
+ {
257
+ "epoch": 0.6185567010309279,
258
+ "grad_norm": 0.4382629096508026,
259
+ "learning_rate": 0.0001794620145927101,
260
+ "loss": 0.0614,
261
+ "step": 360
262
+ },
263
+ {
264
+ "epoch": 0.6357388316151202,
265
+ "grad_norm": 0.6322966814041138,
266
+ "learning_rate": 0.00017806151442457827,
267
+ "loss": 0.0581,
268
+ "step": 370
269
+ },
270
+ {
271
+ "epoch": 0.6529209621993127,
272
+ "grad_norm": 0.5152290463447571,
273
+ "learning_rate": 0.00017662067741111974,
274
+ "loss": 0.07,
275
+ "step": 380
276
+ },
277
+ {
278
+ "epoch": 0.6701030927835051,
279
+ "grad_norm": 0.6691680550575256,
280
+ "learning_rate": 0.00017514024807824055,
281
+ "loss": 0.0839,
282
+ "step": 390
283
+ },
284
+ {
285
+ "epoch": 0.6872852233676976,
286
+ "grad_norm": 0.5262071490287781,
287
+ "learning_rate": 0.00017362099141044626,
288
+ "loss": 0.052,
289
+ "step": 400
290
+ },
291
+ {
292
+ "epoch": 0.7044673539518901,
293
+ "grad_norm": 0.6715118288993835,
294
+ "learning_rate": 0.00017206369245555036,
295
+ "loss": 0.0682,
296
+ "step": 410
297
+ },
298
+ {
299
+ "epoch": 0.7216494845360825,
300
+ "grad_norm": 0.6439153552055359,
301
+ "learning_rate": 0.0001704691559190155,
302
+ "loss": 0.0733,
303
+ "step": 420
304
+ },
305
+ {
306
+ "epoch": 0.738831615120275,
307
+ "grad_norm": 0.37341853976249695,
308
+ "learning_rate": 0.0001688382057481364,
309
+ "loss": 0.0653,
310
+ "step": 430
311
+ },
312
+ {
313
+ "epoch": 0.7560137457044673,
314
+ "grad_norm": 1.1194217205047607,
315
+ "learning_rate": 0.00016717168470628077,
316
+ "loss": 0.0735,
317
+ "step": 440
318
+ },
319
+ {
320
+ "epoch": 0.7731958762886598,
321
+ "grad_norm": 0.6904529333114624,
322
+ "learning_rate": 0.0001654704539374066,
323
+ "loss": 0.0652,
324
+ "step": 450
325
+ },
326
+ {
327
+ "epoch": 0.7903780068728522,
328
+ "grad_norm": 0.8207924962043762,
329
+ "learning_rate": 0.00016373539252108202,
330
+ "loss": 0.0479,
331
+ "step": 460
332
+ },
333
+ {
334
+ "epoch": 0.8075601374570447,
335
+ "grad_norm": 0.5141025185585022,
336
+ "learning_rate": 0.00016196739701823716,
337
+ "loss": 0.0626,
338
+ "step": 470
339
+ },
340
+ {
341
+ "epoch": 0.8247422680412371,
342
+ "grad_norm": 0.46161457896232605,
343
+ "learning_rate": 0.00016016738100788297,
344
+ "loss": 0.0469,
345
+ "step": 480
346
+ },
347
+ {
348
+ "epoch": 0.8419243986254296,
349
+ "grad_norm": 0.3261314034461975,
350
+ "learning_rate": 0.00015833627461503595,
351
+ "loss": 0.0489,
352
+ "step": 490
353
+ },
354
+ {
355
+ "epoch": 0.8591065292096219,
356
+ "grad_norm": 0.564329981803894,
357
+ "learning_rate": 0.0001564750240300934,
358
+ "loss": 0.0445,
359
+ "step": 500
360
+ },
361
+ {
362
+ "epoch": 0.8762886597938144,
363
+ "grad_norm": 0.5079665184020996,
364
+ "learning_rate": 0.00015458459101990693,
365
+ "loss": 0.0557,
366
+ "step": 510
367
+ },
368
+ {
369
+ "epoch": 0.8934707903780069,
370
+ "grad_norm": 0.41103053092956543,
371
+ "learning_rate": 0.00015266595243080714,
372
+ "loss": 0.042,
373
+ "step": 520
374
+ },
375
+ {
376
+ "epoch": 0.9106529209621993,
377
+ "grad_norm": 0.5678098201751709,
378
+ "learning_rate": 0.00015072009968383656,
379
+ "loss": 0.0526,
380
+ "step": 530
381
+ },
382
+ {
383
+ "epoch": 0.9278350515463918,
384
+ "grad_norm": 0.6878070831298828,
385
+ "learning_rate": 0.00014874803826245089,
386
+ "loss": 0.0605,
387
+ "step": 540
388
+ },
389
+ {
390
+ "epoch": 0.9450171821305842,
391
+ "grad_norm": 0.586892306804657,
392
+ "learning_rate": 0.00014675078719295415,
393
+ "loss": 0.0494,
394
+ "step": 550
395
+ },
396
+ {
397
+ "epoch": 0.9621993127147767,
398
+ "grad_norm": 0.4587668776512146,
399
+ "learning_rate": 0.00014472937851793557,
400
+ "loss": 0.0515,
401
+ "step": 560
402
+ },
403
+ {
404
+ "epoch": 0.979381443298969,
405
+ "grad_norm": 0.5171328186988831,
406
+ "learning_rate": 0.00014268485676298078,
407
+ "loss": 0.0576,
408
+ "step": 570
409
+ },
410
+ {
411
+ "epoch": 0.9965635738831615,
412
+ "grad_norm": 0.6215698719024658,
413
+ "learning_rate": 0.0001406182783969324,
414
+ "loss": 0.0537,
415
+ "step": 580
416
+ },
417
+ {
418
+ "epoch": 1.013745704467354,
419
+ "grad_norm": 0.40490490198135376,
420
+ "learning_rate": 0.00013853071128597924,
421
+ "loss": 0.0467,
422
+ "step": 590
423
+ },
424
+ {
425
+ "epoch": 1.0309278350515463,
426
+ "grad_norm": 0.7031866312026978,
427
+ "learning_rate": 0.0001364232341418564,
428
+ "loss": 0.049,
429
+ "step": 600
430
+ },
431
+ {
432
+ "epoch": 1.0481099656357389,
433
+ "grad_norm": 0.3372012972831726,
434
+ "learning_rate": 0.00013429693596444067,
435
+ "loss": 0.0598,
436
+ "step": 610
437
+ },
438
+ {
439
+ "epoch": 1.0652920962199313,
440
+ "grad_norm": 0.4208463728427887,
441
+ "learning_rate": 0.00013215291547903006,
442
+ "loss": 0.0549,
443
+ "step": 620
444
+ },
445
+ {
446
+ "epoch": 1.0824742268041236,
447
+ "grad_norm": 0.5574418902397156,
448
+ "learning_rate": 0.00012999228056859784,
449
+ "loss": 0.0469,
450
+ "step": 630
451
+ },
452
+ {
453
+ "epoch": 1.0996563573883162,
454
+ "grad_norm": 0.5417460203170776,
455
+ "learning_rate": 0.00012781614770131442,
456
+ "loss": 0.0397,
457
+ "step": 640
458
+ },
459
+ {
460
+ "epoch": 1.1168384879725086,
461
+ "grad_norm": 0.38392218947410583,
462
+ "learning_rate": 0.00012562564135363313,
463
+ "loss": 0.0409,
464
+ "step": 650
465
+ },
466
+ {
467
+ "epoch": 1.134020618556701,
468
+ "grad_norm": 0.3199153244495392,
469
+ "learning_rate": 0.0001234218934292376,
470
+ "loss": 0.0402,
471
+ "step": 660
472
+ },
473
+ {
474
+ "epoch": 1.1512027491408934,
475
+ "grad_norm": 0.33709654211997986,
476
+ "learning_rate": 0.00012120604267415172,
477
+ "loss": 0.0338,
478
+ "step": 670
479
+ },
480
+ {
481
+ "epoch": 1.168384879725086,
482
+ "grad_norm": 0.685562789440155,
483
+ "learning_rate": 0.00011897923408831346,
484
+ "loss": 0.0514,
485
+ "step": 680
486
+ },
487
+ {
488
+ "epoch": 1.1855670103092784,
489
+ "grad_norm": 0.6378128528594971,
490
+ "learning_rate": 0.0001167426183339174,
491
+ "loss": 0.0385,
492
+ "step": 690
493
+ },
494
+ {
495
+ "epoch": 1.2027491408934707,
496
+ "grad_norm": 0.39844685792922974,
497
+ "learning_rate": 0.00011449735114083127,
498
+ "loss": 0.0355,
499
+ "step": 700
500
+ },
501
+ {
502
+ "epoch": 1.2199312714776633,
503
+ "grad_norm": 0.5079712271690369,
504
+ "learning_rate": 0.00011224459270939384,
505
+ "loss": 0.0433,
506
+ "step": 710
507
+ },
508
+ {
509
+ "epoch": 1.2371134020618557,
510
+ "grad_norm": 0.3737178444862366,
511
+ "learning_rate": 0.000109985507110903,
512
+ "loss": 0.0418,
513
+ "step": 720
514
+ },
515
+ {
516
+ "epoch": 1.254295532646048,
517
+ "grad_norm": 0.5172721147537231,
518
+ "learning_rate": 0.00010772126168610325,
519
+ "loss": 0.0484,
520
+ "step": 730
521
+ },
522
+ {
523
+ "epoch": 1.2714776632302405,
524
+ "grad_norm": 0.3860677480697632,
525
+ "learning_rate": 0.00010545302644198405,
526
+ "loss": 0.0421,
527
+ "step": 740
528
+ },
529
+ {
530
+ "epoch": 1.2886597938144329,
531
+ "grad_norm": 0.37599268555641174,
532
+ "learning_rate": 0.00010318197344720018,
533
+ "loss": 0.0428,
534
+ "step": 750
535
+ },
536
+ {
537
+ "epoch": 1.3058419243986255,
538
+ "grad_norm": 0.26397764682769775,
539
+ "learning_rate": 0.0001009092762264271,
540
+ "loss": 0.0402,
541
+ "step": 760
542
+ },
543
+ {
544
+ "epoch": 1.3230240549828178,
545
+ "grad_norm": 0.35941213369369507,
546
+ "learning_rate": 9.863610915396365e-05,
547
+ "loss": 0.0404,
548
+ "step": 770
549
+ },
550
+ {
551
+ "epoch": 1.3402061855670104,
552
+ "grad_norm": 0.47325387597084045,
553
+ "learning_rate": 9.63636468468959e-05,
554
+ "loss": 0.0446,
555
+ "step": 780
556
+ },
557
+ {
558
+ "epoch": 1.3573883161512028,
559
+ "grad_norm": 0.4716935455799103,
560
+ "learning_rate": 9.409306355813529e-05,
561
+ "loss": 0.0342,
562
+ "step": 790
563
+ },
564
+ {
565
+ "epoch": 1.3745704467353952,
566
+ "grad_norm": 0.2812814712524414,
567
+ "learning_rate": 9.18255325696454e-05,
568
+ "loss": 0.0343,
569
+ "step": 800
570
+ },
571
+ {
572
+ "epoch": 1.3917525773195876,
573
+ "grad_norm": 0.29519158601760864,
574
+ "learning_rate": 8.956222558616998e-05,
575
+ "loss": 0.0372,
576
+ "step": 810
577
+ },
578
+ {
579
+ "epoch": 1.40893470790378,
580
+ "grad_norm": 0.41123560070991516,
581
+ "learning_rate": 8.730431212977625e-05,
582
+ "loss": 0.0567,
583
+ "step": 820
584
+ },
585
+ {
586
+ "epoch": 1.4261168384879725,
587
+ "grad_norm": 0.3533785343170166,
588
+ "learning_rate": 8.505295893552594e-05,
589
+ "loss": 0.0385,
590
+ "step": 830
591
+ },
592
+ {
593
+ "epoch": 1.443298969072165,
594
+ "grad_norm": 0.4819997251033783,
595
+ "learning_rate": 8.280932934858652e-05,
596
+ "loss": 0.0392,
597
+ "step": 840
598
+ },
599
+ {
600
+ "epoch": 1.4604810996563573,
601
+ "grad_norm": 0.285748690366745,
602
+ "learning_rate": 8.05745827230941e-05,
603
+ "loss": 0.0362,
604
+ "step": 850
605
+ },
606
+ {
607
+ "epoch": 1.47766323024055,
608
+ "grad_norm": 0.39609745144844055,
609
+ "learning_rate": 7.834987382307861e-05,
610
+ "loss": 0.0432,
611
+ "step": 860
612
+ },
613
+ {
614
+ "epoch": 1.4948453608247423,
615
+ "grad_norm": 0.33522850275039673,
616
+ "learning_rate": 7.613635222576072e-05,
617
+ "loss": 0.04,
618
+ "step": 870
619
+ },
620
+ {
621
+ "epoch": 1.5120274914089347,
622
+ "grad_norm": 0.47676974534988403,
623
+ "learning_rate": 7.393516172752919e-05,
624
+ "loss": 0.0347,
625
+ "step": 880
626
+ },
627
+ {
628
+ "epoch": 1.529209621993127,
629
+ "grad_norm": 0.5136341452598572,
630
+ "learning_rate": 7.174743975290513e-05,
631
+ "loss": 0.0374,
632
+ "step": 890
633
+ },
634
+ {
635
+ "epoch": 1.5463917525773194,
636
+ "grad_norm": 0.361741840839386,
637
+ "learning_rate": 6.957431676679896e-05,
638
+ "loss": 0.0358,
639
+ "step": 900
640
+ },
641
+ {
642
+ "epoch": 1.563573883161512,
643
+ "grad_norm": 0.49855756759643555,
644
+ "learning_rate": 6.741691569036338e-05,
645
+ "loss": 0.0352,
646
+ "step": 910
647
+ },
648
+ {
649
+ "epoch": 1.5807560137457046,
650
+ "grad_norm": 0.26860520243644714,
651
+ "learning_rate": 6.527635132074493e-05,
652
+ "loss": 0.0397,
653
+ "step": 920
654
+ },
655
+ {
656
+ "epoch": 1.597938144329897,
657
+ "grad_norm": 0.4026907682418823,
658
+ "learning_rate": 6.315372975503285e-05,
659
+ "loss": 0.0495,
660
+ "step": 930
661
+ },
662
+ {
663
+ "epoch": 1.6151202749140894,
664
+ "grad_norm": 0.377718448638916,
665
+ "learning_rate": 6.1050147818704e-05,
666
+ "loss": 0.0328,
667
+ "step": 940
668
+ },
669
+ {
670
+ "epoch": 1.6323024054982818,
671
+ "grad_norm": 0.41204559803009033,
672
+ "learning_rate": 5.896669249885851e-05,
673
+ "loss": 0.0336,
674
+ "step": 950
675
+ },
676
+ {
677
+ "epoch": 1.6494845360824741,
678
+ "grad_norm": 0.41056016087532043,
679
+ "learning_rate": 5.690444038253935e-05,
680
+ "loss": 0.0406,
681
+ "step": 960
682
+ },
683
+ {
684
+ "epoch": 1.6666666666666665,
685
+ "grad_norm": 0.4092923402786255,
686
+ "learning_rate": 5.4864457100425783e-05,
687
+ "loss": 0.033,
688
+ "step": 970
689
+ },
690
+ {
691
+ "epoch": 1.6838487972508591,
692
+ "grad_norm": 0.35451173782348633,
693
+ "learning_rate": 5.284779677618841e-05,
694
+ "loss": 0.0351,
695
+ "step": 980
696
+ },
697
+ {
698
+ "epoch": 1.7010309278350515,
699
+ "grad_norm": 0.5240267515182495,
700
+ "learning_rate": 5.0855501481790305e-05,
701
+ "loss": 0.0326,
702
+ "step": 990
703
+ },
704
+ {
705
+ "epoch": 1.718213058419244,
706
+ "grad_norm": 0.6117306351661682,
707
+ "learning_rate": 4.8888600699015496e-05,
708
+ "loss": 0.0327,
709
+ "step": 1000
710
+ },
711
+ {
712
+ "epoch": 1.7353951890034365,
713
+ "grad_norm": 0.27679693698883057,
714
+ "learning_rate": 4.694811078750338e-05,
715
+ "loss": 0.0421,
716
+ "step": 1010
717
+ },
718
+ {
719
+ "epoch": 1.7525773195876289,
720
+ "grad_norm": 0.44769006967544556,
721
+ "learning_rate": 4.50350344595635e-05,
722
+ "loss": 0.0313,
723
+ "step": 1020
724
+ },
725
+ {
726
+ "epoch": 1.7697594501718212,
727
+ "grad_norm": 0.35016706585884094,
728
+ "learning_rate": 4.315036026204262e-05,
729
+ "loss": 0.0388,
730
+ "step": 1030
731
+ },
732
+ {
733
+ "epoch": 1.7869415807560136,
734
+ "grad_norm": 0.2692789137363434,
735
+ "learning_rate": 4.129506206551138e-05,
736
+ "loss": 0.0295,
737
+ "step": 1040
738
+ },
739
+ {
740
+ "epoch": 1.8041237113402062,
741
+ "grad_norm": 0.45466527342796326,
742
+ "learning_rate": 3.947009856103465e-05,
743
+ "loss": 0.0367,
744
+ "step": 1050
745
+ },
746
+ {
747
+ "epoch": 1.8213058419243986,
748
+ "grad_norm": 0.2106892317533493,
749
+ "learning_rate": 3.767641276478563e-05,
750
+ "loss": 0.0369,
751
+ "step": 1060
752
+ },
753
+ {
754
+ "epoch": 1.8384879725085912,
755
+ "grad_norm": 0.2619366943836212,
756
+ "learning_rate": 3.591493153075966e-05,
757
+ "loss": 0.0278,
758
+ "step": 1070
759
+ },
760
+ {
761
+ "epoch": 1.8556701030927836,
762
+ "grad_norm": 0.35229456424713135,
763
+ "learning_rate": 3.41865650718396e-05,
764
+ "loss": 0.034,
765
+ "step": 1080
766
+ },
767
+ {
768
+ "epoch": 1.872852233676976,
769
+ "grad_norm": 0.325093537569046,
770
+ "learning_rate": 3.24922064894601e-05,
771
+ "loss": 0.034,
772
+ "step": 1090
773
+ },
774
+ {
775
+ "epoch": 1.8900343642611683,
776
+ "grad_norm": 0.13483747839927673,
777
+ "learning_rate": 3.083273131211382e-05,
778
+ "loss": 0.0254,
779
+ "step": 1100
780
+ },
781
+ {
782
+ "epoch": 1.9072164948453607,
783
+ "grad_norm": 0.37040096521377563,
784
+ "learning_rate": 2.920899704293849e-05,
785
+ "loss": 0.027,
786
+ "step": 1110
787
+ },
788
+ {
789
+ "epoch": 1.9243986254295533,
790
+ "grad_norm": 0.2273675948381424,
791
+ "learning_rate": 2.762184271661785e-05,
792
+ "loss": 0.0265,
793
+ "step": 1120
794
+ },
795
+ {
796
+ "epoch": 1.9415807560137457,
797
+ "grad_norm": 0.12444432824850082,
798
+ "learning_rate": 2.6072088465826038e-05,
799
+ "loss": 0.0248,
800
+ "step": 1130
801
+ },
802
+ {
803
+ "epoch": 1.9587628865979383,
804
+ "grad_norm": 0.3245929479598999,
805
+ "learning_rate": 2.4560535097439108e-05,
806
+ "loss": 0.0296,
807
+ "step": 1140
808
+ },
809
+ {
810
+ "epoch": 1.9759450171821307,
811
+ "grad_norm": 0.28723689913749695,
812
+ "learning_rate": 2.308796367873296e-05,
813
+ "loss": 0.03,
814
+ "step": 1150
815
+ },
816
+ {
817
+ "epoch": 1.993127147766323,
818
+ "grad_norm": 0.2640382647514343,
819
+ "learning_rate": 2.165513513378121e-05,
820
+ "loss": 0.0237,
821
+ "step": 1160
822
+ },
823
+ {
824
+ "epoch": 2.0103092783505154,
825
+ "grad_norm": 0.2659141421318054,
826
+ "learning_rate": 2.0262789850261798e-05,
827
+ "loss": 0.034,
828
+ "step": 1170
829
+ },
830
+ {
831
+ "epoch": 2.027491408934708,
832
+ "grad_norm": 0.41219818592071533,
833
+ "learning_rate": 1.8911647296875147e-05,
834
+ "loss": 0.0282,
835
+ "step": 1180
836
+ },
837
+ {
838
+ "epoch": 2.0446735395189,
839
+ "grad_norm": 0.23828770220279694,
840
+ "learning_rate": 1.7602405651572275e-05,
841
+ "loss": 0.0288,
842
+ "step": 1190
843
+ },
844
+ {
845
+ "epoch": 2.0618556701030926,
846
+ "grad_norm": 0.18391673266887665,
847
+ "learning_rate": 1.6335741440784035e-05,
848
+ "loss": 0.0314,
849
+ "step": 1200
850
+ },
851
+ {
852
+ "epoch": 2.0790378006872854,
853
+ "grad_norm": 0.27285298705101013,
854
+ "learning_rate": 1.511230918983867e-05,
855
+ "loss": 0.0367,
856
+ "step": 1210
857
+ },
858
+ {
859
+ "epoch": 2.0962199312714778,
860
+ "grad_norm": 0.3976253271102905,
861
+ "learning_rate": 1.3932741084747913e-05,
862
+ "loss": 0.0322,
863
+ "step": 1220
864
+ },
865
+ {
866
+ "epoch": 2.11340206185567,
867
+ "grad_norm": 0.17294034361839294,
868
+ "learning_rate": 1.2797646645536566e-05,
869
+ "loss": 0.0221,
870
+ "step": 1230
871
+ },
872
+ {
873
+ "epoch": 2.1305841924398625,
874
+ "grad_norm": 0.39969944953918457,
875
+ "learning_rate": 1.1707612411284253e-05,
876
+ "loss": 0.0318,
877
+ "step": 1240
878
+ },
879
+ {
880
+ "epoch": 2.147766323024055,
881
+ "grad_norm": 0.2953219711780548,
882
+ "learning_rate": 1.0663201637042252e-05,
883
+ "loss": 0.0267,
884
+ "step": 1250
885
+ },
886
+ {
887
+ "epoch": 2.1649484536082473,
888
+ "grad_norm": 0.24471993744373322,
889
+ "learning_rate": 9.664954002781745e-06,
890
+ "loss": 0.0219,
891
+ "step": 1260
892
+ },
893
+ {
894
+ "epoch": 2.1821305841924397,
895
+ "grad_norm": 0.26958975195884705,
896
+ "learning_rate": 8.713385334524283e-06,
897
+ "loss": 0.0227,
898
+ "step": 1270
899
+ },
900
+ {
901
+ "epoch": 2.1993127147766325,
902
+ "grad_norm": 0.3202515244483948,
903
+ "learning_rate": 7.808987337798158e-06,
904
+ "loss": 0.0258,
905
+ "step": 1280
906
+ },
907
+ {
908
+ "epoch": 2.216494845360825,
909
+ "grad_norm": 0.23253372311592102,
910
+ "learning_rate": 6.952227343558671e-06,
911
+ "loss": 0.0254,
912
+ "step": 1290
913
+ },
914
+ {
915
+ "epoch": 2.2336769759450172,
916
+ "grad_norm": 0.2511325776576996,
917
+ "learning_rate": 6.143548066703475e-06,
918
+ "loss": 0.0282,
919
+ "step": 1300
920
+ },
921
+ {
922
+ "epoch": 2.2508591065292096,
923
+ "grad_norm": 0.21489648520946503,
924
+ "learning_rate": 5.383367377307857e-06,
925
+ "loss": 0.02,
926
+ "step": 1310
927
+ },
928
+ {
929
+ "epoch": 2.268041237113402,
930
+ "grad_norm": 0.3450476825237274,
931
+ "learning_rate": 4.672078084698095e-06,
932
+ "loss": 0.0279,
933
+ "step": 1320
934
+ },
935
+ {
936
+ "epoch": 2.2852233676975944,
937
+ "grad_norm": 0.36600273847579956,
938
+ "learning_rate": 4.010047734474454e-06,
939
+ "loss": 0.034,
940
+ "step": 1330
941
+ },
942
+ {
943
+ "epoch": 2.3024054982817868,
944
+ "grad_norm": 0.48743385076522827,
945
+ "learning_rate": 3.397618418588877e-06,
946
+ "loss": 0.0384,
947
+ "step": 1340
948
+ },
949
+ {
950
+ "epoch": 2.319587628865979,
951
+ "grad_norm": 0.30427098274230957,
952
+ "learning_rate": 2.8351065985751766e-06,
953
+ "loss": 0.0226,
954
+ "step": 1350
955
+ },
956
+ {
957
+ "epoch": 2.336769759450172,
958
+ "grad_norm": 0.36907103657722473,
959
+ "learning_rate": 2.322802942023461e-06,
960
+ "loss": 0.0334,
961
+ "step": 1360
962
+ },
963
+ {
964
+ "epoch": 2.3539518900343643,
965
+ "grad_norm": 0.184714213013649,
966
+ "learning_rate": 1.8609721723830132e-06,
967
+ "loss": 0.0223,
968
+ "step": 1370
969
+ },
970
+ {
971
+ "epoch": 2.3711340206185567,
972
+ "grad_norm": 0.43203970789909363,
973
+ "learning_rate": 1.4498529321713584e-06,
974
+ "loss": 0.0273,
975
+ "step": 1380
976
+ },
977
+ {
978
+ "epoch": 2.388316151202749,
979
+ "grad_norm": 0.26931440830230713,
980
+ "learning_rate": 1.0896576596600705e-06,
981
+ "loss": 0.0265,
982
+ "step": 1390
983
+ },
984
+ {
985
+ "epoch": 2.4054982817869415,
986
+ "grad_norm": 0.19834183156490326,
987
+ "learning_rate": 7.80572479101327e-07,
988
+ "loss": 0.0253,
989
+ "step": 1400
990
+ },
991
+ {
992
+ "epoch": 2.422680412371134,
993
+ "grad_norm": 0.22906753420829773,
994
+ "learning_rate": 5.227571045515633e-07,
995
+ "loss": 0.0331,
996
+ "step": 1410
997
+ },
998
+ {
999
+ "epoch": 2.4398625429553267,
1000
+ "grad_norm": 0.307211697101593,
1001
+ "learning_rate": 3.163447573422351e-07,
1002
+ "loss": 0.03,
1003
+ "step": 1420
1004
+ },
1005
+ {
1006
+ "epoch": 2.457044673539519,
1007
+ "grad_norm": 0.31240877509117126,
1008
+ "learning_rate": 1.614420972401165e-07,
1009
+ "loss": 0.0307,
1010
+ "step": 1430
1011
+ },
1012
+ {
1013
+ "epoch": 2.4742268041237114,
1014
+ "grad_norm": 0.28886109590530396,
1015
+ "learning_rate": 5.812916733284324e-08,
1016
+ "loss": 0.0214,
1017
+ "step": 1440
1018
+ },
1019
+ {
1020
+ "epoch": 2.491408934707904,
1021
+ "grad_norm": 0.29304051399230957,
1022
+ "learning_rate": 6.459352668164442e-09,
1023
+ "loss": 0.0285,
1024
+ "step": 1450
1025
+ },
1026
+ {
1027
+ "epoch": 2.5,
1028
+ "step": 1455,
1029
+ "total_flos": 4.98510260177783e+16,
1030
+ "train_loss": 0.0646941511594143,
1031
+ "train_runtime": 645.0485,
1032
+ "train_samples_per_second": 36.09,
1033
+ "train_steps_per_second": 2.256
1034
+ }
1035
+ ],
1036
+ "logging_steps": 10,
1037
+ "max_steps": 1455,
1038
+ "num_input_tokens_seen": 0,
1039
+ "num_train_epochs": 3,
1040
+ "save_steps": 500,
1041
+ "stateful_callbacks": {
1042
+ "TrainerControl": {
1043
+ "args": {
1044
+ "should_epoch_stop": false,
1045
+ "should_evaluate": false,
1046
+ "should_log": false,
1047
+ "should_save": true,
1048
+ "should_training_stop": true
1049
+ },
1050
+ "attributes": {}
1051
+ }
1052
+ },
1053
+ "total_flos": 4.98510260177783e+16,
1054
+ "train_batch_size": 16,
1055
+ "trial_name": null,
1056
+ "trial_params": null
1057
+ }