Fine-tuned XLSR-53 large model for speech recognition in English

Fine-tuned facebook/wav2vec2-large-xlsr-53 on English using the train and validation splits of Common Voice 6.1. When using this model, make sure that your speech input is sampled at 16kHz.

Downloads last month: 2

Safetensors

Model size

315M params

Tensor type

F32

Inference Providers NEW

Automatic Speech Recognition

This model is not currently available via any of the supported Inference Providers.

Datasets used to train BeebekBhz/wav2vec2-large-xlsr-english

Evaluation results

Test WER on Common Voice en
self-reported

19.060
Test CER on Common Voice en
self-reported

7.690
Test WER (+LM) on Common Voice en
self-reported

14.810
Test CER (+LM) on Common Voice en
self-reported

6.840
Dev WER on Robust Speech Event - Dev Data
self-reported

27.720
Dev CER on Robust Speech Event - Dev Data
self-reported

11.650
Dev WER (+LM) on Robust Speech Event - Dev Data
self-reported

20.850
Dev CER (+LM) on Robust Speech Event - Dev Data
self-reported

11.010

View on Papers With Code