CamemBERT-Gpt / README.md
CocoLng's picture
Update README.md
74425a5 verified
---
language: fr
tags:
- french
- camembert
- nlp
- language-model
- transformers
- oscar
- moscar
license: mit
datasets:
- oscar
- moscar
metrics:
- accuracy
base_model:
- almanach/camembert-base
---
# CamemBERT-Gpt POIDS UNIQUEMENT
Ce dépôt contient les poids et checkpoints des différentes itérations d'entraînement de notre réimplémentation de CamemBERT, réalisée dans le cadre d'un projet à Sorbonne Université. Notre objectif est de reproduire les résultats de l'article de recherche original en utilisant l'architecture RoBERTa.
## Modèle de référence
Notre implémentation vise à répliquer le modèle CamemBERT original, disponible sur Hugging Face : [camembert-base](https://huggingface.co/camembert-base)
## Structure du Projet
```
cam_runX/
├── checkpoints/
│ ├── checkpoint-XXX/
│ └── checkpoint-XXX/
├── weights/
└── model_info.txt
```
## Description des Runs d'Entraînement
### cam_run24
- **Dataset**: [mOSCAR](https://huggingface.co/datasets/oscar-corpus/mOSCAR) (portion française)
- **Taille des données**: 1 Go de texte
- **Description**: Version d'entraînement avec un sous-ensemble contrôlé des données
### cam_run30
- **Dataset**: [OSCAR](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301) (portion française)
- **Taille des données**: 100 Go de texte
- **Description**: Version d'entraînement complète, reproduisant les conditions de l'article original
## Données d'Entraînement
Notre approche utilise exclusivement les portions françaises des datasets suivants :
- **mOSCAR**: Version plus récente et mieux filtrée du corpus OSCAR
- [mOSCAR sur Hugging Face](https://huggingface.co/datasets/oscar-corpus/mOSCAR)
- Utilisé pour le run expérimental (cam_run24)
- **OSCAR**: Common Crawl filtré pour le français
- [OSCAR sur Hugging Face](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301)
- Utilisé pour la réplication fidèle (cam_run30)
- Même dataset que celui utilisé dans l'article original
## Paramètres d'Entraînement
Les checkpoints sont sauvegardés à intervalles réguliers pendant l'entraînement. Chaque dossier représente une session d'entraînement complète avec ses propres paramètres et résultats.
## Repository GitHub associé
Le code source complet et la documentation détaillée sont disponibles sur notre [repository GitHub](https://github.com/CocoLng/CamemBERT-Gpt).
## Citations
```bibtex
@inproceedings{martin2020camembert,
title={CamemBERT: a Tasty French Language Model},
author={Martin, Louis and Muller, Benjamin and Ortiz Suárez, Pedro Javier and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020}
}
```
## Contact
Pour toute question concernant ce modèle ou son utilisation, veuillez ouvrir une issue sur le [repository GitHub](https://github.com/CocoLng/CamemBERT-Gpt).