yandex
/

YandexGPT-5-Lite-8B-pretrain

Safetensors

Russian

English

llama

Model card Files Files and versions Community

Sergei Vorobev commited on 15 days ago

Commit

a06a135

1 Parent(s): a885561

update repo

Browse files

Files changed (2) hide show

LICENSE +1 -1
README.md +3 -3

LICENSE CHANGED Viewed

@@ -22,7 +22,7 @@ d. Для использования Материалов на иных усло
 II. ОГРАНИЧЕНИЯ
-Вы не имеете право сами, а также не имеете право разрешать или содействовать третьим лицам в совершении следующих действий:
 a. использовать Материалы или Производные произведения таким образом, что это приводит или может привести к получению, созданию или распространению следующей информации или материалов:

 II. ОГРАНИЧЕНИЯ
+Вы не имеете права сами, а также не имеете права разрешать или содействовать третьим лицам в совершении следующих действий:
 a. использовать Материалы или Производные произведения таким образом, что это приводит или может привести к получению, созданию или распространению следующей информации или материалов:

README.md CHANGED Viewed

@@ -11,7 +11,7 @@ Pretrain-версия большой языковой модели YandexGPT 5 L
 На втором этапе, который мы назвали Powerup, модель обучалась на высококачественных данных объёмом 320B токенов. Состав Powerup-датасета: 25% — веб-страницы, 19% — математика, 18% — код, 18% — образовательные данные, остальное — синтетика, датасеты сервисов и прочие качественные тексты. На этом этапе мы увеличили длину контекста до 32k токенов.
-Кроме того, наш токенизатор хорошо оптимизирован для русского языка. Например, 32k токенов нашей модели в среднем соответствует 48k токенам Qwen-2.5.
 Более подробно — в нашей [статье на Хабре](https://habr.com/ru/companies/yandex/articles/885218/).
@@ -20,7 +20,7 @@ Pretrain-версия большой языковой модели YandexGPT 5 L
 ## Бенчмарки
 В своей категории модель достигает паритета с мировыми SOTA по ряду ключевых бенчмарков для pretrain-моделей, а по многим другим — превосходит их:
-Бенчмарки опубликованы в [статье на Хабре](https://habr.com/ru/companies/yandex/articles/885218/).
 \* по данным репорта разработчиков модели. <br>
 BBH — 3-shot, HUMAN_EVAL и MPBB — 0-shot, все остальные бенчмарки — 5-shot. <br>
@@ -105,7 +105,7 @@ tune ls
 tune cp llama3_1/8B_lora training_config.yaml
 ```
-Изменяем конфиг, адаптируем его под нашу модель и делаем подходящим нашу задачу. Например, [такой](https://huggingface.co/yandex/YandexGPT-5-Lite-8B-pretrain/discussions/1#67bc4e6472499ce2ba3659a7) вариант подойдет для lora обучения на открытом инстракт датасете `alpaca-cleaned`.
 Запускаем обучение:
 ```bash

 На втором этапе, который мы назвали Powerup, модель обучалась на высококачественных данных объёмом 320B токенов. Состав Powerup-датасета: 25% — веб-страницы, 19% — математика, 18% — код, 18% — образовательные данные, остальное — синтетика, датасеты сервисов и прочие качественные тексты. На этом этапе мы увеличили длину контекста до 32k токенов.
+Кроме того, наш токенизатор хорошо оптимизирован для русского языка. Например, 32k токенов нашей модели в среднем соответствует 48k токенам Qwen-2.5.
 Более подробно — в нашей [статье на Хабре](https://habr.com/ru/companies/yandex/articles/885218/).
 ## Бенчмарки
 В своей категории модель достигает паритета с мировыми SOTA по ряду ключевых бенчмарков для pretrain-моделей, а по многим другим — превосходит их:
+<img src="https://habrastorage.org/r/w1560/getpro/habr/upload_files/c24/404/fc8/c24404fc8ee30835077e9f219c4471c0.png" alt="Таблица бенчмарков" width="70%"/>
 \* по данным репорта разработчиков модели. <br>
 BBH — 3-shot, HUMAN_EVAL и MPBB — 0-shot, все остальные бенчмарки — 5-shot. <br>
 tune cp llama3_1/8B_lora training_config.yaml
 ```
+Изменяем конфиг, адаптируем его под нашу модель и задачу. Например, [такой](https://huggingface.co/yandex/YandexGPT-5-Lite-8B-pretrain/discussions/1#67bc4e6472499ce2ba3659a7) вариант подойдет для lora обучения на открытом инстракт датасете `alpaca-cleaned`.
 Запускаем обучение:
 ```bash