flan-t5-rouge-squad-qg-120b

This model is a fine-tuned version of google/flan-t5-base on an unknown dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1326
  • Rouge1: 0.4965
  • Rouge2: 0.1956
  • Rougel: 0.4702
  • Rougelsum: 0.4882

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 24
  • eval_batch_size: 24
  • seed: 42
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: linear
  • num_epochs: 120

Training results

Training Loss Epoch Step Validation Loss Rouge1 Rouge2 Rougel Rougelsum
30.5041 1.0 3 39.6660 0.2044 0.1176 0.2042 0.2040
29.6302 2.0 6 33.0937 0.2044 0.1176 0.2042 0.2040
23.5695 3.0 9 27.8725 0.2044 0.1176 0.2042 0.2040
21.6451 4.0 12 23.7108 0.2044 0.1176 0.2042 0.2040
17.2131 5.0 15 20.0906 0.2044 0.1176 0.2042 0.2040
16.4541 6.0 18 16.5908 0.2044 0.1176 0.2042 0.2040
12.1867 7.0 21 12.6214 0.2044 0.1176 0.2042 0.2040
8.2715 8.0 24 8.0302 0.2929 0.2196 0.2928 0.2922
6.2412 9.0 27 5.0296 0.2929 0.2196 0.2928 0.2922
5.071 10.0 30 4.5872 0.2929 0.2196 0.2928 0.2922
4.5706 11.0 33 4.4163 0.2929 0.2196 0.2928 0.2922
4.4585 12.0 36 4.2817 0.2929 0.2196 0.2928 0.2922
4.2829 13.0 39 4.1193 0.2929 0.2196 0.2928 0.2922
4.1264 14.0 42 3.9181 0.2929 0.2196 0.2928 0.2922
3.9009 15.0 45 3.6782 0.2929 0.2196 0.2928 0.2922
3.8081 16.0 48 3.3787 0.2929 0.2196 0.2928 0.2922
3.7031 17.0 51 2.9901 0.2929 0.2196 0.2928 0.2922
3.3724 18.0 54 2.4641 0.2929 0.2196 0.2928 0.2922
3.1574 19.0 57 2.0956 0.2929 0.2196 0.2928 0.2922
2.6594 20.0 60 2.3112 0.2929 0.2196 0.2928 0.2922
2.4989 21.0 63 2.2345 0.2929 0.2196 0.2928 0.2922
2.274 22.0 66 1.8176 0.2929 0.2196 0.2928 0.2922
2.2661 23.0 69 1.2891 0.2929 0.2196 0.2928 0.2922
1.8511 24.0 72 0.9794 0.2929 0.2196 0.2928 0.2922
1.9351 25.0 75 0.8423 0.2929 0.2196 0.2928 0.2922
1.7982 26.0 78 0.7955 0.2929 0.2196 0.2928 0.2922
1.4419 27.0 81 0.7670 0.2929 0.2196 0.2928 0.2922
1.141 28.0 84 0.6224 0.2929 0.2196 0.2928 0.2922
1.1274 29.0 87 0.5063 0.2929 0.2196 0.2928 0.2922
1.0188 30.0 90 0.4484 0.2929 0.2196 0.2928 0.2922
1.1517 31.0 93 0.4193 0.2929 0.2196 0.2928 0.2922
0.8292 32.0 96 0.3894 0.2929 0.2196 0.2928 0.2922
0.7164 33.0 99 0.3695 0.2929 0.2196 0.2928 0.2922
0.8222 34.0 102 0.3390 0.2929 0.2196 0.2928 0.2922
0.7608 35.0 105 0.3104 0.2929 0.2196 0.2928 0.2922
0.5812 36.0 108 0.2948 0.2929 0.2196 0.2928 0.2922
0.6589 37.0 111 0.2931 0.2929 0.2196 0.2928 0.2922
0.5931 38.0 114 0.2929 0.2929 0.2196 0.2928 0.2922
0.4907 39.0 117 0.2811 0.2929 0.2196 0.2928 0.2922
0.4851 40.0 120 0.2560 0.2929 0.2196 0.2928 0.2922
0.4299 41.0 123 0.2230 0.2929 0.2196 0.2928 0.2922
0.4193 42.0 126 0.1954 0.2929 0.2196 0.2928 0.2922
0.367 43.0 129 0.1775 0.2929 0.2196 0.2928 0.2922
0.3536 44.0 132 0.1676 0.2929 0.2196 0.2928 0.2922
0.1864 45.0 135 0.1582 0.4884 0.2012 0.4797 0.4803
0.2865 46.0 138 0.1489 0.4884 0.2012 0.4797 0.4803
0.3833 47.0 141 0.1399 0.4884 0.2012 0.4797 0.4803
0.1599 48.0 144 0.1335 0.5458 0.3047 0.5363 0.5383
0.3261 49.0 147 0.1291 0.5458 0.3047 0.5363 0.5383
0.1632 50.0 150 0.1264 0.5084 0.2127 0.4915 0.4998
0.1984 51.0 153 0.1232 0.5084 0.2127 0.4915 0.4998
0.2711 52.0 156 0.1199 0.5084 0.2127 0.4915 0.4998
0.3586 53.0 159 0.1169 0.5084 0.2127 0.4915 0.4998
0.206 54.0 162 0.1149 0.5084 0.2127 0.4915 0.4998
0.132 55.0 165 0.1141 0.5084 0.2127 0.4915 0.4998
0.1801 56.0 168 0.1143 0.4965 0.1956 0.4702 0.4882
0.2259 57.0 171 0.1152 0.4965 0.1956 0.4702 0.4882
0.2182 58.0 174 0.1166 0.4965 0.1956 0.4702 0.4882
0.2121 59.0 177 0.1172 0.4965 0.1956 0.4702 0.4882
0.1635 60.0 180 0.1176 0.4965 0.1956 0.4702 0.4882
0.1009 61.0 183 0.1177 0.4965 0.1956 0.4702 0.4882
0.1855 62.0 186 0.1175 0.4965 0.1956 0.4702 0.4882
0.139 63.0 189 0.1181 0.4965 0.1956 0.4702 0.4882
0.1888 64.0 192 0.1197 0.4965 0.1956 0.4702 0.4882
0.1146 65.0 195 0.1211 0.4965 0.1956 0.4702 0.4882
0.1996 66.0 198 0.1221 0.4965 0.1956 0.4702 0.4882
0.3403 67.0 201 0.1232 0.4965 0.1956 0.4702 0.4882
0.2965 68.0 204 0.1239 0.4965 0.1956 0.4702 0.4882
0.0884 69.0 207 0.1238 0.4965 0.1956 0.4702 0.4882
0.2344 70.0 210 0.1232 0.4965 0.1956 0.4702 0.4882
0.1138 71.0 213 0.1226 0.4965 0.1956 0.4702 0.4882
0.0462 72.0 216 0.1231 0.4965 0.1956 0.4702 0.4882
0.1086 73.0 219 0.1237 0.4965 0.1956 0.4702 0.4882
0.144 74.0 222 0.1247 0.4965 0.1956 0.4702 0.4882
0.1153 75.0 225 0.1250 0.4965 0.1956 0.4702 0.4882
0.1049 76.0 228 0.1251 0.4965 0.1956 0.4702 0.4882
0.0812 77.0 231 0.1249 0.4965 0.1956 0.4702 0.4882
0.1623 78.0 234 0.1244 0.4965 0.1956 0.4702 0.4882
0.1405 79.0 237 0.1244 0.4965 0.1956 0.4702 0.4882
0.0683 80.0 240 0.1247 0.4965 0.1956 0.4702 0.4882
0.1683 81.0 243 0.1250 0.4965 0.1956 0.4702 0.4882
0.0969 82.0 246 0.1251 0.4965 0.1956 0.4702 0.4882
0.1824 83.0 249 0.1252 0.4965 0.1956 0.4702 0.4882
0.1292 84.0 252 0.1251 0.4965 0.1956 0.4702 0.4882
0.1881 85.0 255 0.1243 0.4965 0.1956 0.4702 0.4882
0.2328 86.0 258 0.1236 0.4965 0.1956 0.4702 0.4882
0.0924 87.0 261 0.1231 0.4965 0.1956 0.4702 0.4882
0.1712 88.0 264 0.1225 0.4965 0.1956 0.4702 0.4882
0.0747 89.0 267 0.1225 0.4965 0.1956 0.4702 0.4882
0.1307 90.0 270 0.1230 0.4965 0.1956 0.4702 0.4882
0.0634 91.0 273 0.1235 0.4965 0.1956 0.4702 0.4882
0.0743 92.0 276 0.1245 0.4965 0.1956 0.4702 0.4882
0.0745 93.0 279 0.1255 0.4965 0.1956 0.4702 0.4882
0.055 94.0 282 0.1263 0.4965 0.1956 0.4702 0.4882
0.066 95.0 285 0.1274 0.4965 0.1956 0.4702 0.4882
0.1216 96.0 288 0.1286 0.4965 0.1956 0.4702 0.4882
0.0621 97.0 291 0.1292 0.4965 0.1956 0.4702 0.4882
0.1152 98.0 294 0.1295 0.4965 0.1956 0.4702 0.4882
0.1137 99.0 297 0.1297 0.4965 0.1956 0.4702 0.4882
0.1969 100.0 300 0.1300 0.4965 0.1956 0.4702 0.4882
0.1149 101.0 303 0.1303 0.4965 0.1956 0.4702 0.4882
0.072 102.0 306 0.1304 0.4965 0.1956 0.4702 0.4882
0.1155 103.0 309 0.1304 0.4965 0.1956 0.4702 0.4882
0.1313 104.0 312 0.1305 0.4965 0.1956 0.4702 0.4882
0.0546 105.0 315 0.1305 0.4965 0.1956 0.4702 0.4882
0.0816 106.0 318 0.1305 0.4965 0.1956 0.4702 0.4882
0.1578 107.0 321 0.1307 0.4965 0.1956 0.4702 0.4882
0.0771 108.0 324 0.1307 0.4965 0.1956 0.4702 0.4882
0.084 109.0 327 0.1308 0.4965 0.1956 0.4702 0.4882
0.1746 110.0 330 0.1312 0.4965 0.1956 0.4702 0.4882
0.0644 111.0 333 0.1314 0.4965 0.1956 0.4702 0.4882
0.0964 112.0 336 0.1315 0.4965 0.1956 0.4702 0.4882
0.0344 113.0 339 0.1317 0.4965 0.1956 0.4702 0.4882
0.0368 114.0 342 0.1319 0.4965 0.1956 0.4702 0.4882
0.0793 115.0 345 0.1320 0.4965 0.1956 0.4702 0.4882
0.0738 116.0 348 0.1322 0.4965 0.1956 0.4702 0.4882
0.062 117.0 351 0.1323 0.4965 0.1956 0.4702 0.4882
0.0634 118.0 354 0.1324 0.4965 0.1956 0.4702 0.4882
0.0493 119.0 357 0.1325 0.4965 0.1956 0.4702 0.4882
0.1332 120.0 360 0.1326 0.4965 0.1956 0.4702 0.4882

Framework versions

  • Transformers 4.47.1
  • Pytorch 2.5.1+cu121
  • Datasets 3.2.0
  • Tokenizers 0.21.0
Downloads last month
115
Safetensors
Model size
248M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported third-party Inference Providers, and the model is not deployed on the HF Inference API.

Model tree for devagonal/flan-t5-rouge-squad-qg-120b

Finetuned
(672)
this model