File size: 3,062 Bytes
74425a5 943edcc 74425a5 943edcc 74425a5 943edcc 74425a5 943edcc 74425a5 943edcc 74425a5 943edcc |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 |
---
language: fr
tags:
- french
- camembert
- nlp
- language-model
- transformers
- oscar
- moscar
license: mit
datasets:
- oscar
- moscar
metrics:
- accuracy
base_model:
- almanach/camembert-base
---
# CamemBERT-Gpt POIDS UNIQUEMENT
Ce dépôt contient les poids et checkpoints des différentes itérations d'entraînement de notre réimplémentation de CamemBERT, réalisée dans le cadre d'un projet à Sorbonne Université. Notre objectif est de reproduire les résultats de l'article de recherche original en utilisant l'architecture RoBERTa.
## Modèle de référence
Notre implémentation vise à répliquer le modèle CamemBERT original, disponible sur Hugging Face : [camembert-base](https://huggingface.co/camembert-base)
## Structure du Projet
```
cam_runX/
├── checkpoints/
│ ├── checkpoint-XXX/
│ └── checkpoint-XXX/
├── weights/
└── model_info.txt
```
## Description des Runs d'Entraînement
### cam_run24
- **Dataset**: [mOSCAR](https://huggingface.co/datasets/oscar-corpus/mOSCAR) (portion française)
- **Taille des données**: 1 Go de texte
- **Description**: Version d'entraînement avec un sous-ensemble contrôlé des données
### cam_run30
- **Dataset**: [OSCAR](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301) (portion française)
- **Taille des données**: 100 Go de texte
- **Description**: Version d'entraînement complète, reproduisant les conditions de l'article original
## Données d'Entraînement
Notre approche utilise exclusivement les portions françaises des datasets suivants :
- **mOSCAR**: Version plus récente et mieux filtrée du corpus OSCAR
- [mOSCAR sur Hugging Face](https://huggingface.co/datasets/oscar-corpus/mOSCAR)
- Utilisé pour le run expérimental (cam_run24)
- **OSCAR**: Common Crawl filtré pour le français
- [OSCAR sur Hugging Face](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301)
- Utilisé pour la réplication fidèle (cam_run30)
- Même dataset que celui utilisé dans l'article original
## Paramètres d'Entraînement
Les checkpoints sont sauvegardés à intervalles réguliers pendant l'entraînement. Chaque dossier représente une session d'entraînement complète avec ses propres paramètres et résultats.
## Repository GitHub associé
Le code source complet et la documentation détaillée sont disponibles sur notre [repository GitHub](https://github.com/CocoLng/CamemBERT-Gpt).
## Citations
```bibtex
@inproceedings{martin2020camembert,
title={CamemBERT: a Tasty French Language Model},
author={Martin, Louis and Muller, Benjamin and Ortiz Suárez, Pedro Javier and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020}
}
```
## Contact
Pour toute question concernant ce modèle ou son utilisation, veuillez ouvrir une issue sur le [repository GitHub](https://github.com/CocoLng/CamemBERT-Gpt). |