| import os | |
| INTRODUCTION_TEXT = """ | |
| # Русский ASR-лидерборд | |
| Площадка для честного сравнения моделей распознавания русской речи. Мы считаем WER и CER на единых тестовых наборах и сортируем модели по среднему WER (ниже — лучше). Наведите курсор на значение WER в колонке датасета, чтобы увидеть CER. Все метрики указаны в процентах. | |
| """ | |
| REPO_ID = "Vikhrmodels/russian-asr-leaderboard" | |
| HF_TOKEN = os.getenv("HF_TOKEN") | |
| DATASETS = [ | |
| "Russian_LibriSpeech", | |
| "Common_Voice_Corpus_22.0", | |
| "Tone_Webinars", | |
| "Tone_Books", | |
| "Tone_Speak", | |
| "Sova_RuDevices", | |
| ] | |
| SHORT_DATASET_NAMES = ["RuLS", "CV 22.0", "Webinars", "Books", "Speak", "Sova"] | |
| DATASET_DESCRIPTIONS = { | |
| "RuLS": { | |
| "full_name": "Russian_LibriSpeech", | |
| "description": "Корпус на основе русскоязычных аудиокниг LibriVox. Около 98 часов речи с верифицированными транскрипциями.", | |
| "num_rows": 1352, | |
| }, | |
| "CV 22.0": { | |
| "full_name": "Common_Voice_Corpus_22.0", | |
| "description": "Краудсорсинговый многоязычный корпус Mozilla Common Voice. Версия 22.0 содержит русскую речь с транскрипциями.", | |
| "num_rows": 10244, | |
| }, | |
| "Webinars": { | |
| "full_name": "Tone_Webinars", | |
| "description": "Речь из образовательных вебинаров. Разнообразные дикторы и темы, близкие к реальным сценариям.", | |
| "num_rows": 21587, | |
| }, | |
| "Books": { | |
| "full_name": "Tone_Books", | |
| "description": "Фрагменты русских аудиокниг. Чистая дикторская речь и аккуратные транскрипции.", | |
| "num_rows": 4930, | |
| }, | |
| "Speak": { | |
| "full_name": "Tone_Speak", | |
| "description": "Синтетическая русская речь. Полезна для оценки устойчивости к TTS-голосам.", | |
| "num_rows": 700, | |
| }, | |
| "Sova": { | |
| "full_name": "Sova_RuDevices", | |
| "description": "Около 100 часов живой русской речи, записанной на устройствах 16 kHz. Тщательно размеченные транскрипции.", | |
| "num_rows": 5799, | |
| }, | |
| } | |