Мислеща модела базирана на llama-3.1-8b-instruct
Не е deepseek, а стандартна модела научена да мисли.

Актуализиран 15.02.2025

  • Changed training params
  • GRPO
  • Бъългарски токени

Релиз: 14.02.2025

  • GRPO

Пример:

SYSTEM:"""
Отговори в следния формат:
<мислене>
...
</мислене>
<отговор>
...
</отговор>
"""

USER: Колко е 2 + 2?

ASSISTANT: 
<мислене>
2 + 2 е едно от най-елементарните аритметични операции.
При изпълнението на тази операция се позволява да се запишат
числата в еднакви групи и се даде обща им стойност.
Има два брояча в групите, които запълват всеки един с две единици.
След това се сумира стойността на двете групи, което води до 2 + 2 = 4.
</мислене>
<отговор>
4
</отговор>

Uploaded model

  • Developed by: burgasdotpro
  • License: apache-2.0
  • Finetuned from model : unsloth/meta-llama-3.1-8b-instruct-bnb-4bit

Тази llama модела тренирана 2 пъти по-бързо с помоща на Unsloth и TRL библиотеката на Huggingface.

Downloads last month
430
GGUF
Model size
8.03B params
Architecture
llama

4-bit

5-bit

6-bit

8-bit

Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The model has no pipeline_tag.

Dataset used to train burgasdotpro/bgGPT-GRPO-Llama-3.1-8B-Inst-GGUF

Collection including burgasdotpro/bgGPT-GRPO-Llama-3.1-8B-Inst-GGUF