Sergei Vorobev
commited on
Commit
·
a06a135
1
Parent(s):
a885561
update repo
Browse files
LICENSE
CHANGED
@@ -22,7 +22,7 @@ d. Для использования Материалов на иных усло
|
|
22 |
|
23 |
II. ОГРАНИЧЕНИЯ
|
24 |
|
25 |
-
Вы не имеете
|
26 |
|
27 |
a. использовать Материалы или Производные произведения таким образом, что это приводит или может привести к получению, созданию или распространению следующей информации или материалов:
|
28 |
|
|
|
22 |
|
23 |
II. ОГРАНИЧЕНИЯ
|
24 |
|
25 |
+
Вы не имеете права сами, а также не имеете права разрешать или содействовать третьим лицам в совершении следующих действий:
|
26 |
|
27 |
a. использовать Материалы или Производные произведения таким образом, что это приводит или может привести к получению, созданию или распространению следующей информации или материалов:
|
28 |
|
README.md
CHANGED
@@ -11,7 +11,7 @@ Pretrain-версия большой языковой модели YandexGPT 5 L
|
|
11 |
|
12 |
На втором этапе, который мы назвали Powerup, модель обучалась на высококачественных данных объёмом 320B токенов. Состав Powerup-датасета: 25% — веб-страницы, 19% — математика, 18% — код, 18% — образовательные данные, остальное — синтетика, датасеты сервисов и прочие качественные тексты. На этом этапе мы увеличили длину контекста до 32k токенов.
|
13 |
|
14 |
-
Кроме того, наш токенизатор хорошо оптимизирован для русского языка. Например, 32k токенов нашей модели в среднем соответствует 48k токенам Qwen-2.5.
|
15 |
|
16 |
Более подробно — в нашей [статье на Хабре](https://habr.com/ru/companies/yandex/articles/885218/).
|
17 |
|
@@ -20,7 +20,7 @@ Pretrain-версия большой языковой модели YandexGPT 5 L
|
|
20 |
## Бенчмарки
|
21 |
В своей категории модель достигает паритета с мировыми SOTA по ряду ключевых бенчмарков для pretrain-моделей, а по многим другим — превосходит их:
|
22 |
|
23 |
-
|
24 |
|
25 |
\* по данным репорта разработчиков модели. <br>
|
26 |
BBH — 3-shot, HUMAN_EVAL и MPBB — 0-shot, все остальные бенчмарки — 5-shot. <br>
|
@@ -105,7 +105,7 @@ tune ls
|
|
105 |
tune cp llama3_1/8B_lora training_config.yaml
|
106 |
```
|
107 |
|
108 |
-
Изменяем конфиг, адаптируем его под нашу модель и
|
109 |
|
110 |
Запускаем обучение:
|
111 |
```bash
|
|
|
11 |
|
12 |
На втором этапе, который мы назвали Powerup, модель обучалась на высококачественных данных объёмом 320B токенов. Состав Powerup-датасета: 25% — веб-страницы, 19% — математика, 18% — код, 18% — образовательные данные, остальное — синтетика, датасеты сервисов и прочие качественные тексты. На этом этапе мы увеличили длину контекста до 32k токенов.
|
13 |
|
14 |
+
Кроме того, наш токенизатор хорошо оптимизирован для русского языка. Например, 32k токенов нашей модели в среднем соответствует 48k токенам Qwen-2.5.
|
15 |
|
16 |
Более подробно — в нашей [статье на Хабре](https://habr.com/ru/companies/yandex/articles/885218/).
|
17 |
|
|
|
20 |
## Бенчмарки
|
21 |
В своей категории модель достигает паритета с мировыми SOTA по ряду ключевых бенчмарков для pretrain-моделей, а по многим другим — превосходит их:
|
22 |
|
23 |
+
<img src="https://habrastorage.org/r/w1560/getpro/habr/upload_files/c24/404/fc8/c24404fc8ee30835077e9f219c4471c0.png" alt="Таблица бенчмарков" width="70%"/>
|
24 |
|
25 |
\* по данным репорта разработчиков модели. <br>
|
26 |
BBH — 3-shot, HUMAN_EVAL и MPBB — 0-shot, все остальные бенчмарки — 5-shot. <br>
|
|
|
105 |
tune cp llama3_1/8B_lora training_config.yaml
|
106 |
```
|
107 |
|
108 |
+
Изменяем конфиг, адаптируем его под нашу модель и задачу. Например, [такой](https://huggingface.co/yandex/YandexGPT-5-Lite-8B-pretrain/discussions/1#67bc4e6472499ce2ba3659a7) вариант подойдет для lora обучения на открытом инстракт датасете `alpaca-cleaned`.
|
109 |
|
110 |
Запускаем обучение:
|
111 |
```bash
|