bert-base-cased-sentence-splitter

This model is a fine-tuned version of bert-base-cased on an unknown dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 2e-05
train_batch_size: 8
eval_batch_size: 8
seed: 42
optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
num_epochs: 30

Training Loss	Epoch	Step	Validation Loss	F1
No log	1.0	49	0.0083	0.9593
No log	2.0	98	0.0029	0.9726
No log	3.0	147	0.0023	0.9786
No log	4.0	196	0.0032	0.9771
No log	5.0	245	0.0019	0.9861
No log	6.0	294	0.0017	0.9846
No log	7.0	343	0.0019	0.9861
No log	8.0	392	0.0025	0.9891
No log	9.0	441	0.0018	0.9846
No log	10.0	490	0.0014	0.9907
0.0091	11.0	539	0.0021	0.9861
0.0091	12.0	588	0.0014	0.9922
0.0091	13.0	637	0.0016	0.9938
0.0091	14.0	686	0.0018	0.9907
0.0091	15.0	735	0.0016	0.9907
0.0091	16.0	784	0.0016	0.9922
0.0091	17.0	833	0.0018	0.9922
0.0091	18.0	882	0.0018	0.9907
0.0091	19.0	931	0.0015	0.9922
0.0091	20.0	980	0.0018	0.9922
0.0004	21.0	1029	0.0020	0.9922
0.0004	22.0	1078	0.0025	0.9907
0.0004	23.0	1127	0.0026	0.9907
0.0004	24.0	1176	0.0019	0.9922
0.0004	25.0	1225	0.0018	0.9922
0.0004	26.0	1274	0.0019	0.9922
0.0004	27.0	1323	0.0020	0.9922
0.0004	28.0	1372	0.0021	0.9922
0.0004	29.0	1421	0.0022	0.9922
0.0004	30.0	1470	0.0021	0.9922