Undi95 commited on
Commit
d2cceea
·
verified ·
1 Parent(s): 38a3d54

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +45 -126
README.md CHANGED
@@ -1,151 +1,70 @@
1
  ---
2
- library_name: transformers
3
- tags:
4
- - generated_from_trainer
5
  datasets:
6
- - 2025-01_conversations_truncated.jsonl
7
- model-index:
8
- - name: outputs/
9
- results: []
 
 
 
 
 
10
  ---
 
11
 
12
- <!-- This model card has been generated automatically according to the information the Trainer had access to. You
13
- should probably proofread and complete it, then remove this comment. -->
14
 
15
- [<img src="https://raw.githubusercontent.com/axolotl-ai-cloud/axolotl/main/image/axolotl-badge-web.png" alt="Built with Axolotl" width="200" height="32"/>](https://github.com/axolotl-ai-cloud/axolotl)
16
- <details><summary>See axolotl config</summary>
17
 
18
- axolotl version: `0.6.0`
19
- ```yaml
20
- base_model: ./meta-llama_Llama-3.2-3B
21
- # optionally might have model_type or tokenizer_type
22
- model_type: LlamaForCausalLM
23
- tokenizer_type: AutoTokenizer
24
- # Automatically upload checkpoint and final model to HF
25
- # hub_model_id: username/custom_model_name
26
 
27
- load_in_8bit: false
28
- load_in_4bit: false
29
- strict: false
 
 
 
30
 
31
- datasets:
32
- - path: 2025-01_conversations_truncated.jsonl
33
- type: chat_template
34
- chat_template: llama3
35
- field_messages: conversations
36
- message_field_role: from
37
- message_field_content: value
38
- roles:
39
- user:
40
- - human
41
- assistant:
42
- - gpt
43
- system:
44
- - system
45
- dataset_prepared_path:
46
- val_set_size: 0.05
47
- output_dir: ./outputs/
48
- dataset_prepared_path: last_run_prepared
49
-
50
- sequence_len: 4096
51
- eval_sample_packing: false
52
- sample_packing: true
53
- pad_to_sequence_len: true
54
-
55
- wandb_project: JVCGPT Light 3b base
56
- wandb_entity:
57
- wandb_watch:
58
- wandb_name:
59
- wandb_log_model:
60
-
61
- gradient_accumulation_steps: 4
62
- micro_batch_size: 2
63
- num_epochs: 4
64
- optimizer: paged_adamw_8bit
65
- lr_scheduler: cosine
66
- learning_rate: 0.000007
67
-
68
- train_on_inputs: true
69
- group_by_length: false
70
- bf16: auto
71
- fp16:
72
- tf32: false
73
-
74
- gradient_checkpointing: unsloth
75
- early_stopping_patience:
76
- resume_from_checkpoint:
77
- local_rank:
78
- logging_steps: 1
79
- xformers_attention:
80
- flash_attention: true
81
- s2_attention:
82
-
83
- warmup_steps: 100
84
- eval_table_size:
85
- saves_per_epoch: 2
86
- debug:
87
- deepspeed:
88
- weight_decay: 0.0
89
- fsdp:
90
- fsdp_config:
91
- special_tokens:
92
- pad_token: <|end_of_text|>
93
- save_safetensors: true
94
- save_total_limit: 10
95
- ```
96
 
97
- </details><br>
98
 
99
- # outputs/
 
100
 
101
- This model was trained from scratch on the 2025-01_conversations_truncated.jsonl dataset.
102
- It achieves the following results on the evaluation set:
103
- - Loss: 1.1520
104
 
105
- ## Model description
 
106
 
107
- More information needed
108
 
109
- ## Intended uses & limitations
 
110
 
111
- More information needed
 
112
 
113
- ## Training and evaluation data
114
 
115
- More information needed
 
 
 
116
 
117
- ## Training procedure
118
 
119
- ### Training hyperparameters
 
120
 
121
- The following hyperparameters were used during training:
122
- - learning_rate: 7e-06
123
- - train_batch_size: 2
124
- - eval_batch_size: 2
125
- - seed: 42
126
- - distributed_type: multi-GPU
127
- - num_devices: 4
128
- - gradient_accumulation_steps: 4
129
- - total_train_batch_size: 32
130
- - total_eval_batch_size: 8
131
- - optimizer: Use OptimizerNames.PAGED_ADAMW_8BIT with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
132
- - lr_scheduler_type: cosine
133
- - lr_scheduler_warmup_steps: 100
134
- - num_epochs: 4
135
 
136
- ### Training results
 
137
 
138
- | Training Loss | Epoch | Step | Validation Loss |
139
- |:-------------:|:------:|:----:|:---------------:|
140
- | 0.6055 | 1.0006 | 789 | 1.1893 |
141
- | 0.5619 | 2.0006 | 1578 | 1.1576 |
142
- | 0.4873 | 3.0006 | 2367 | 1.1522 |
143
- | 1.2133 | 3.9917 | 3148 | 1.1520 |
144
 
 
 
145
 
146
- ### Framework versions
147
 
148
- - Transformers 4.47.1
149
- - Pytorch 2.5.1+cu124
150
- - Datasets 3.2.0
151
- - Tokenizers 0.21.0
 
1
  ---
 
 
 
2
  datasets:
3
+ - Error410/sharegpt
4
+ language:
5
+ - fr
6
+ base_model:
7
+ - meta-llama/Llama-3.2-3B-Instruct
8
+ tags:
9
+ - jvc
10
+ - issou
11
+ - aya
12
  ---
13
+ # Error410/JVCGPT-Mini-beta
14
 
15
+ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/63ab1241ad514ca8d1430003/R0ZRrgMITvprcoXajAnPi.png)
 
16
 
17
+ ## Description
18
+ Ce modèle est une version fine-tunée de **Llama 3.2 3B** ayant pour objectif de reproduire les styles d’écriture et les posts des utilisateurs du forum **jeuxvideo.com**. Entraîné sur une fraction des données publiques de **JVArchive**, ce modèle est conçu pour capturer le ton, l’humour et les références propres à cette communauté en ligne.
19
 
 
 
 
 
 
 
 
 
20
 
21
+ ## Détails du modèle
22
+ - **Base** : Llama 3.2 (3B paramètres)
23
+ - **Dataset utilisé** : 2% de JVArchive (public et accessible librement)
24
+ - **Entraînement** : 3 heures pour 2 epoch sur un cluster de 8 NVIDIA L40S sur un contexte de 4096 tokens.
25
+ - **Objectif** : Générer des messages imitant le style des utilisateurs de jeuxvideo.com
26
+ - **Accès** : Dataset et modèles disponibles gratuitement sur notre repo [Error410](https://huggingface.co/Error410/).
27
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
28
 
29
+ ## Format du prompt
30
 
31
+ ```
32
+ <|begin_of_text|><|start_header_id|>system<|end_header_id|>
33
 
34
+ Réponds comme un membre actif du forum, en respectant le style, les références et le ton typiques du topic en cours.
35
+ Topic: <TOPIC>|eot_id|><|start_header_id|>user<|end_header_id|>
 
36
 
37
+ <|im_pseudo|>PSEUDO<|end_pseudo|>
38
+ <|im_date|>DATE<|end_date|>
39
 
40
+ <|begin_of_post|>POST<|end_of_post|><|eot_id|><|start_header_id|>assistant<|end_header_id|>
41
 
42
+ <|im_pseudo|>PSEUDO<|end_pseudo|>
43
+ <|im_date|>DATE<|end_date|>
44
 
45
+ <|begin_of_post|>POST<|end_of_post|><|eot_id|>
46
+ ```
47
 
48
+ Template SillyTavern: https://huggingface.co/Error410/JVCGPT-Mini-beta/blob/main/SillyTavern%20Prompt%20Format.json
49
 
50
+ ## Performances
51
+ - **Style** : Captures efficacement les références, expressions, et styles d’écriture caractéristiques des forums jeuxvideo.com.
52
+ - **Légèreté** : Adapté pour tout grâce à sa petit taille de 3B de paramètres.
53
+ - **Temps de réponse** : Optimisé pour des générations rapides à faible coût.
54
 
 
55
 
56
+ ## Dataset
57
+ Le modèle a été entraîné sur une sélection de **2% des archives de JVArchive** (100 000 topics). Ces données ont été traitées et filtrées pour garantir une qualité et une diversité optimales.
58
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
59
 
60
+ ## Licence
61
+ Le modèle, le dataset, et tous les fichiers associés sont mis à disposition gratuitement sous la même license (PUBLIC) que JVArchive, dans notre repo.
62
 
 
 
 
 
 
 
63
 
64
+ ## Remerciements
65
+ Un grand merci à **JVArchive** pour l’accès aux données publiques et à la communauté jeuxvideo.com pour son inspiration. Ce projet est dédié aux passionnés de l’histoire du forum et à la culture internet.
66
 
67
+ ## Auteurs
68
 
69
+ - [Greums](https://huggingface.co/Greums/) : Pro des datasets bordelent cimer chef
70
+ - [Undi](https://huggingface.co/Undi95/)