CocoLng
/

CamemBERT-Gpt

Model card Files Files and versions Community

CamemBERT-Gpt / README.md

CocoLng's picture

Update README.md

74425a5 verified 3 months ago

|

history blame contribute delete

3.06 kB

	---
	language: fr
	tags:
	- french
	- camembert
	- nlp
	- language-model
	- transformers
	- oscar
	- moscar
	license: mit
	datasets:
	- oscar
	- moscar
	metrics:
	- accuracy
	base_model:
	- almanach/camembert-base
	---

	# CamemBERT-Gpt POIDS UNIQUEMENT

	Ce dépôt contient les poids et checkpoints des différentes itérations d'entraînement de notre réimplémentation de CamemBERT, réalisée dans le cadre d'un projet à Sorbonne Université. Notre objectif est de reproduire les résultats de l'article de recherche original en utilisant l'architecture RoBERTa.

	## Modèle de référence

	Notre implémentation vise à répliquer le modèle CamemBERT original, disponible sur Hugging Face : [camembert-base](https://huggingface.co/camembert-base)

	## Structure du Projet

	```
	cam_runX/
	├── checkpoints/
	│ ├── checkpoint-XXX/
	│ └── checkpoint-XXX/
	├── weights/
	└── model_info.txt
	```

	## Description des Runs d'Entraînement

	### cam_run24
	- Dataset: [mOSCAR](https://huggingface.co/datasets/oscar-corpus/mOSCAR) (portion française)
	- Taille des données: 1 Go de texte
	- Description: Version d'entraînement avec un sous-ensemble contrôlé des données

	### cam_run30
	- Dataset: [OSCAR](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301) (portion française)
	- Taille des données: 100 Go de texte
	- Description: Version d'entraînement complète, reproduisant les conditions de l'article original

	## Données d'Entraînement

	Notre approche utilise exclusivement les portions françaises des datasets suivants :

	- mOSCAR: Version plus récente et mieux filtrée du corpus OSCAR
	- [mOSCAR sur Hugging Face](https://huggingface.co/datasets/oscar-corpus/mOSCAR)
	- Utilisé pour le run expérimental (cam_run24)

	- OSCAR: Common Crawl filtré pour le français
	- [OSCAR sur Hugging Face](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301)
	- Utilisé pour la réplication fidèle (cam_run30)
	- Même dataset que celui utilisé dans l'article original

	## Paramètres d'Entraînement

	Les checkpoints sont sauvegardés à intervalles réguliers pendant l'entraînement. Chaque dossier représente une session d'entraînement complète avec ses propres paramètres et résultats.

	## Repository GitHub associé

	Le code source complet et la documentation détaillée sont disponibles sur notre [repository GitHub](https://github.com/CocoLng/CamemBERT-Gpt).

	## Citations

	```bibtex
	@inproceedings{martin2020camembert,
	title={CamemBERT: a Tasty French Language Model},
	author={Martin, Louis and Muller, Benjamin and Ortiz Suárez, Pedro Javier and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
	booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
	year={2020}
	}
	```

	## Contact

	Pour toute question concernant ce modèle ou son utilisation, veuillez ouvrir une issue sur le [repository GitHub](https://github.com/CocoLng/CamemBERT-Gpt).