cnn_dailymail_726_bart-large

This model is a fine-tuned version of facebook/bart-large on an unknown dataset. It achieves the following results on the evaluation set:

  • Loss: 0.8412
  • Rouge1: 0.2469
  • Rouge2: 0.1266
  • Rougel: 0.2074
  • Rougelsum: 0.2332
  • Gen Len: 20.0

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 8
  • eval_batch_size: 8
  • seed: 42
  • gradient_accumulation_steps: 16
  • total_train_batch_size: 128
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: linear
  • lr_scheduler_warmup_steps: 500
  • num_epochs: 10

Training results

Training Loss Epoch Step Validation Loss Rouge1 Rouge2 Rougel Rougelsum Gen Len
0.9706 0.22 500 0.9015 0.237 0.1181 0.1979 0.2232 19.9999
0.9212 0.45 1000 0.8771 0.237 0.1193 0.199 0.2233 20.0
0.8991 0.67 1500 0.8572 0.2443 0.1238 0.2045 0.2304 20.0
0.9085 0.89 2000 0.8519 0.2404 0.1227 0.2022 0.2269 20.0
0.8494 1.11 2500 0.8471 0.2437 0.1233 0.2041 0.2298 20.0
0.832 1.34 3000 0.8400 0.2438 0.1248 0.2055 0.2301 20.0
0.8522 1.56 3500 0.8393 0.2417 0.1242 0.2043 0.2283 20.0
0.8494 1.78 4000 0.8338 0.2436 0.1239 0.2047 0.23 19.9999
0.7729 2.01 4500 0.8332 0.2431 0.1253 0.2048 0.2298 20.0
0.7761 2.23 5000 0.8323 0.2477 0.1264 0.207 0.2335 19.9994
0.7788 2.45 5500 0.8277 0.2473 0.1259 0.2068 0.2333 20.0
0.7832 2.67 6000 0.8251 0.2453 0.126 0.2061 0.2317 20.0
0.7888 2.9 6500 0.8239 0.242 0.1241 0.2037 0.2287 20.0
0.7413 3.12 7000 0.8360 0.2394 0.1228 0.2017 0.2258 20.0
0.7438 3.34 7500 0.8283 0.2462 0.1267 0.2072 0.2326 19.9999
0.7271 3.57 8000 0.8275 0.2406 0.1235 0.2028 0.2276 20.0
0.7435 3.79 8500 0.8221 0.2451 0.1254 0.2055 0.2311 19.9998
0.7072 4.01 9000 0.8277 0.2437 0.1251 0.2049 0.2301 19.9999
0.708 4.24 9500 0.8270 0.2465 0.1263 0.2067 0.2325 19.9999
0.7058 4.46 10000 0.8279 0.2424 0.1249 0.2045 0.229 19.9999
0.6918 4.68 10500 0.8248 0.246 0.1259 0.2063 0.232 19.9998
0.7121 4.9 11000 0.8231 0.2457 0.126 0.2058 0.232 19.9999
0.6667 5.13 11500 0.8297 0.2458 0.1262 0.2066 0.2323 19.9996
0.6767 5.35 12000 0.8309 0.2469 0.1269 0.2071 0.2332 19.9996
0.6961 5.57 12500 0.8299 0.247 0.1271 0.2074 0.2333 20.0
0.6842 5.8 13000 0.8333 0.2473 0.127 0.2077 0.2336 19.9996
0.6485 6.02 13500 0.8360 0.2454 0.1259 0.2061 0.2316 19.9998
0.6651 6.24 14000 0.8349 0.2454 0.126 0.2062 0.2314 20.0
0.6483 6.46 14500 0.8331 0.2454 0.1258 0.2058 0.2316 20.0
0.6626 6.69 15000 0.8309 0.2468 0.127 0.2069 0.2328 19.9996
0.6675 6.91 15500 0.8337 0.2448 0.1255 0.2056 0.231 19.9999
0.6479 7.13 16000 0.8387 0.2471 0.1267 0.2074 0.2333 19.9999
0.6506 7.36 16500 0.8377 0.2474 0.1264 0.2071 0.2335 19.9999
0.643 7.58 17000 0.8369 0.2454 0.1259 0.2059 0.2318 20.0
0.6262 7.8 17500 0.8378 0.2466 0.1269 0.2071 0.233 19.9997
0.6235 8.02 18000 0.8415 0.2458 0.1266 0.2065 0.2321 20.0
0.6081 8.25 18500 0.8421 0.2465 0.1267 0.2069 0.2326 19.9997
0.6257 8.47 19000 0.8409 0.2477 0.1267 0.2075 0.2337 19.9999
0.6187 8.69 19500 0.8381 0.2459 0.1264 0.2066 0.2321 19.9997
0.6178 8.92 20000 0.8384 0.248 0.1273 0.2079 0.2339 19.9996
0.6018 9.14 20500 0.8432 0.2468 0.1265 0.2071 0.2329 20.0
0.6235 9.36 21000 0.8418 0.2469 0.1265 0.207 0.233 20.0
0.606 9.58 21500 0.8418 0.2464 0.1264 0.207 0.2327 19.9999
0.6016 9.81 22000 0.8412 0.2469 0.1266 0.2074 0.2332 20.0

Framework versions

  • Transformers 4.37.2
  • Pytorch 2.2.0+cu121
  • Datasets 2.16.1
  • Tokenizers 0.15.1
Downloads last month
8
Safetensors
Model size
406M params
Tensor type
F32
ยท
Inference Providers NEW
This model isn't deployed by any Inference Provider. ๐Ÿ™‹ Ask for provider support

Model tree for ryusangwon/bart-large-cnndm

Finetuned
(167)
this model