Lexu3A commited on
Commit
bce1cb5
·
verified ·
1 Parent(s): c5f13f1

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +65 -5
README.md CHANGED
@@ -1,9 +1,69 @@
1
  ---
 
 
2
  tags:
3
- - model_hub_mixin
4
- - pytorch_model_hub_mixin
 
 
5
  ---
6
 
7
- This model has been pushed to the Hub using the [PytorchModelHubMixin](https://huggingface.co/docs/huggingface_hub/package_reference/mixins#huggingface_hub.PyTorchModelHubMixin) integration:
8
- - Library: [More Information Needed]
9
- - Docs: [More Information Needed]
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
+ language: ru
3
+ license: mit
4
  tags:
5
+ - model_hub_mixin
6
+ - pytorch_model_hub_mixin
7
+ - language-modeling
8
+ - text-generation
9
  ---
10
 
11
+ # Название модели
12
+ Модель трансформер, с реализованными блоками GQA, SwiGLU, ALiBi.
13
+
14
+ ## Описание
15
+
16
+ Эта модель была обучена на датасете с анекдотами на русском языке. Модель может решать следующие задачи:
17
+ 1. Генерация новых последовательностей.
18
+ 2. Автодополнение последовательностей.
19
+ 3. и другие задачи обработки естественного языка.
20
+
21
+
22
+ ## Архитектура
23
+
24
+ - **Tokenizer:**
25
+ В качестве токенайзера используется ByteLevel BPE, с vocab_size = 1024.
26
+
27
+ - **Структура модели:**
28
+ Модель поддерживает несколько размеров: "nano", "mini", "small", количество параметров соответственно: 0.53M, 11.43M, 86.62M.
29
+
30
+ Модель состоит из следующих блоков:
31
+
32
+ * dropout
33
+ * RMS Norm
34
+ * GQA + ALiBi
35
+ * SwiGLU
36
+ * Linear_head + softmax
37
+
38
+ Подробнее можно увидеть на следующей схеме:
39
+
40
+
41
+ - **Обучение и параметры:**
42
+ Во время обучения были использованы следующие параметры:
43
+
44
+ 1) optimizer = AdamW(learning_rate=3e-4, weight_decay=0.01)
45
+ 2) scheduler - Linear schedule with warmup
46
+ 3) loss = cross_entropy
47
+ 4)
48
+
49
+ ## Данные
50
+
51
+ Модель обучалась на следующем датасете:
52
+
53
+ - **Название датасета:**
54
+ Краткое описание датасета, ссылка на источник (если применимо).
55
+ _Пример:_ обучено на выборке новостных статей с [название ресурса/источника].
56
+
57
+ ## Оценка качества (Quality Report)
58
+
59
+ Для оценки модели были использованы следующие метрики:
60
+
61
+ - **Perplexity:** 12.34 (примерное значение)
62
+ - **BLEU/ROUGE:** Если применимо, укажите метрики и результаты.
63
+
64
+ При наличии автоматизированного Quality Report можно добавить ссылку на ноутбук или встроить результаты тестирования.
65
+
66
+ ## Примеры генерации
67
+
68
+ **Пример 1: Завершение предложения**
69
+