File size: 3,062 Bytes
74425a5
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
943edcc
 
 
74425a5
 
 
 
 
943edcc
 
 
 
 
 
 
 
 
 
 
 
74425a5
 
 
 
 
 
943edcc
74425a5
 
 
 
943edcc
 
 
74425a5
 
 
 
 
 
 
 
 
 
943edcc
 
 
74425a5
943edcc
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
---

language: fr
tags:
- french
- camembert
- nlp
- language-model
- transformers
- oscar
- moscar
license: mit
datasets:
- oscar
- moscar
metrics:
- accuracy
base_model:
- almanach/camembert-base
---


# CamemBERT-Gpt POIDS UNIQUEMENT

Ce dépôt contient les poids et checkpoints des différentes itérations d'entraînement de notre réimplémentation de CamemBERT, réalisée dans le cadre d'un projet à Sorbonne Université. Notre objectif est de reproduire les résultats de l'article de recherche original en utilisant l'architecture RoBERTa.

## Modèle de référence

Notre implémentation vise à répliquer le modèle CamemBERT original, disponible sur Hugging Face : [camembert-base](https://huggingface.co/camembert-base)

## Structure du Projet

```
cam_runX/
├── checkpoints/
│   ├── checkpoint-XXX/
│   └── checkpoint-XXX/
├── weights/
└── model_info.txt
```

## Description des Runs d'Entraînement

### cam_run24
- **Dataset**: [mOSCAR](https://huggingface.co/datasets/oscar-corpus/mOSCAR) (portion française)
- **Taille des données**: 1 Go de texte
- **Description**: Version d'entraînement avec un sous-ensemble contrôlé des données

### cam_run30
- **Dataset**: [OSCAR](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301) (portion française)
- **Taille des données**: 100 Go de texte
- **Description**: Version d'entraînement complète, reproduisant les conditions de l'article original

## Données d'Entraînement

Notre approche utilise exclusivement les portions françaises des datasets suivants :

- **mOSCAR**: Version plus récente et mieux filtrée du corpus OSCAR
  - [mOSCAR sur Hugging Face](https://huggingface.co/datasets/oscar-corpus/mOSCAR)
  - Utilisé pour le run expérimental (cam_run24)

- **OSCAR**: Common Crawl filtré pour le français
  - [OSCAR sur Hugging Face](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301)
  - Utilisé pour la réplication fidèle (cam_run30)
  - Même dataset que celui utilisé dans l'article original

## Paramètres d'Entraînement

Les checkpoints sont sauvegardés à intervalles réguliers pendant l'entraînement. Chaque dossier représente une session d'entraînement complète avec ses propres paramètres et résultats.

## Repository GitHub associé

Le code source complet et la documentation détaillée sont disponibles sur notre [repository GitHub](https://github.com/CocoLng/CamemBERT-Gpt).

## Citations

```bibtex
@inproceedings{martin2020camembert,
    title={CamemBERT: a Tasty French Language Model},
    author={Martin, Louis and Muller, Benjamin and Ortiz Suárez, Pedro Javier and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
    booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
    year={2020}
}
```

## Contact

Pour toute question concernant ce modèle ou son utilisation, veuillez ouvrir une issue sur le [repository GitHub](https://github.com/CocoLng/CamemBERT-Gpt).