|
---
|
|
language: fr
|
|
tags:
|
|
- french
|
|
- camembert
|
|
- nlp
|
|
- language-model
|
|
- transformers
|
|
- oscar
|
|
- moscar
|
|
license: mit
|
|
datasets:
|
|
- oscar
|
|
- moscar
|
|
metrics:
|
|
- accuracy
|
|
base_model:
|
|
- almanach/camembert-base
|
|
---
|
|
|
|
# CamemBERT-Gpt POIDS UNIQUEMENT |
|
|
|
Ce dépôt contient les poids et checkpoints des différentes itérations d'entraînement de notre réimplémentation de CamemBERT, réalisée dans le cadre d'un projet à Sorbonne Université. Notre objectif est de reproduire les résultats de l'article de recherche original en utilisant l'architecture RoBERTa. |
|
|
|
## Modèle de référence |
|
|
|
Notre implémentation vise à répliquer le modèle CamemBERT original, disponible sur Hugging Face : [camembert-base](https://huggingface.co/camembert-base) |
|
|
|
## Structure du Projet |
|
|
|
``` |
|
cam_runX/ |
|
├── checkpoints/ |
|
│ ├── checkpoint-XXX/ |
|
│ └── checkpoint-XXX/ |
|
├── weights/ |
|
└── model_info.txt |
|
``` |
|
|
|
## Description des Runs d'Entraînement |
|
|
|
### cam_run24 |
|
- **Dataset**: [mOSCAR](https://huggingface.co/datasets/oscar-corpus/mOSCAR) (portion française) |
|
- **Taille des données**: 1 Go de texte |
|
- **Description**: Version d'entraînement avec un sous-ensemble contrôlé des données |
|
|
|
### cam_run30 |
|
- **Dataset**: [OSCAR](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301) (portion française) |
|
- **Taille des données**: 100 Go de texte |
|
- **Description**: Version d'entraînement complète, reproduisant les conditions de l'article original |
|
|
|
## Données d'Entraînement |
|
|
|
Notre approche utilise exclusivement les portions françaises des datasets suivants : |
|
|
|
- **mOSCAR**: Version plus récente et mieux filtrée du corpus OSCAR |
|
- [mOSCAR sur Hugging Face](https://huggingface.co/datasets/oscar-corpus/mOSCAR) |
|
- Utilisé pour le run expérimental (cam_run24) |
|
|
|
- **OSCAR**: Common Crawl filtré pour le français |
|
- [OSCAR sur Hugging Face](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301) |
|
- Utilisé pour la réplication fidèle (cam_run30) |
|
- Même dataset que celui utilisé dans l'article original |
|
|
|
## Paramètres d'Entraînement |
|
|
|
Les checkpoints sont sauvegardés à intervalles réguliers pendant l'entraînement. Chaque dossier représente une session d'entraînement complète avec ses propres paramètres et résultats. |
|
|
|
## Repository GitHub associé |
|
|
|
Le code source complet et la documentation détaillée sont disponibles sur notre [repository GitHub](https://github.com/CocoLng/CamemBERT-Gpt). |
|
|
|
## Citations |
|
|
|
```bibtex |
|
@inproceedings{martin2020camembert, |
|
title={CamemBERT: a Tasty French Language Model}, |
|
author={Martin, Louis and Muller, Benjamin and Ortiz Suárez, Pedro Javier and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît}, |
|
booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics}, |
|
year={2020} |
|
} |
|
``` |
|
|
|
## Contact |
|
|
|
Pour toute question concernant ce modèle ou son utilisation, veuillez ouvrir une issue sur le [repository GitHub](https://github.com/CocoLng/CamemBERT-Gpt). |