Create README.md
Browse files
README.md
CHANGED
|
@@ -0,0 +1,37 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
pipeline_tag: text-generation
|
| 3 |
+
---
|
| 4 |
+
|
| 5 |
+
# Описание
|
| 6 |
+
Данная модель была создана в рамках курса по [NLP от VK](https://education.vk.company/program/kurs-nlp-yazykovye-modeli-ml).
|
| 7 |
+
|
| 8 |
+
Задание заключалось в том, чтобы обучить трансформерную языковую модель генерации анекдотов на наборе данных IgorVolochay/russian_jokes. Важное условие - использование таких технологий, как GQA, ALiBi, SwiGLU.
|
| 9 |
+
|
| 10 |
+
# Модель
|
| 11 |
+
Модель - transformer decoder. Изменения базовой архитектуры - использование Grouped Query Attention в self-attention, ALiBi в качестве relative positional encoding и SwiGLU в FF.
|
| 12 |
+
|
| 13 |
+
Характеристики модели: 12 слоев (трансформер блоков), 12 голов в attention, 6 kv голов в attention для GQA, d_model=768, d_ff=2048. Количество параметров: 79.54M.
|
| 14 |
+
|
| 15 |
+
Токенизатор: Byte-level BPE. Размер словаря: 1024.
|
| 16 |
+
|
| 17 |
+
Обучение модели: learning_rate=2e-4, n_steps=15000, max_seq_len=128, batch_size=16, CELoss.
|
| 18 |
+
|
| 19 |
+
Обучалась 110 минут на одной Nvidia GTX 1080.
|
| 20 |
+
|
| 21 |
+
# Результаты
|
| 22 |
+
Итоговый Test Loss (Cross-Entropy): 2.583.
|
| 23 |
+
|
| 24 |
+
Качество модели не очень. Получается генерировать осмысленный текст, иногда даже выходят анекдоты. Но модель скорее копирует стиль, а не понимает юмор. Это объясняется ее небольшим размером.
|
| 25 |
+
|
| 26 |
+
## Примеры генерации
|
| 27 |
+
Параметры генерации: top_k=10, temperature=0.4.
|
| 28 |
+
|
| 29 |
+
Начальный текст: "Заходит в бар"
|
| 30 |
+
|
| 31 |
+
1. Заходит в бар, а там мужик и кричит: -- Джон, у меня картошка с картошкой! - А ты что, опять пойдешь? - Да нет, я не пью! - А что я? - А я готовлю!
|
| 32 |
+
2. Заходит в бар, а там сидит девушка. Тут вдруг один говорит:- Вась, ты что, сегодня вечером съешь?
|
| 33 |
+
|
| 34 |
+
Начальный текст: "Сидим с бобром за столом"
|
| 35 |
+
|
| 36 |
+
1. Сидим с бобром за столом, пьем, пьем, пьем, пьем, а пиво не пьют.
|
| 37 |
+
2. Сидим с бобром за столом, а вдруг за столом сидит девушка. Девушка:- Молодой человек, а почему у тебя такие большие ноги?
|