license: mit
language:
- fr
library_name: transformers
tags:
- Biomedical
- Medical
- French-Biomedical
Mask token:
- - MASK
widget:
- text: >-
A l’admission, l’examen clinique mettait en évidence : - une hypotension
artérielle avec une pression [MASK] à 6 mmHg.
example_title: Example 1
- text: >-
Le patient a été diagnostiqué avec une [MASK] lobaire aiguë et a été
traité avec des antibiotiques appropriés
example_title: Example 2
- text: >-
En mars 2001, le malade fut opéré, mais vu le caractère hémorragique de la
tumeur, une simple biopsie surrénalienne a été réalisée ayant montré
l’aspect de [MASK] malin non Hodgkinien de haut grade de malignité.
example_title: Example 3
- text: >-
La cytologie urinaire n’a mis en évidence que des cellules [MASK] normales
et l’examen cyto-bactériologique des urines était stérile.
example_title: Example 4
- text: >-
La prise de greffe a été systématiquement réalisée au niveau de la face
interne de la [MASK] afin de limiter la plaie cicatricielle.
example_title: Example 5
quinten-datalab/AliBERT-7GB: AliBERT: is a pre-trained language model for French biomedical text.
Introduction
AliBERT: is a pre-trained language model for French biomedical text. It is trained with masked language model like RoBERTa.
Here are the main contributions of our work: A French biomedical language model, a language-specific and domain-specific PLM, which can be used to represent French biomedical text for different downstream tasks. A normalization of a Unigram sub-word tokenization of French biomedical textual input which improves our vocabulary and overall performance of the models trained. AliBERT outperforms other French PLMs in different downstream tasks. It is a foundation model that achieved state-of-the-art results on French biomedical text.
Data
The pre-training corpus was gathered from different sub-corpora.It is composed of 7GB French biomedical textual documents. Here are the sources used.
Dataset name | Quantity | Size |
---|---|---|
Drug database | 23K | 550Mb |
RCP | 35K | 2200Mb |
Articles | 500K | 4300Mb |
Thesis | 300K | 300Mb |
Cochrane | 7.6K | 27Mb |
How to use alibert-quinten/Oncology-NER with HuggingFace
Load quinten-datalab/AliBERT-7GB fill-mask model and the tokenizer used to train AliBERT:
from transformers import AutoTokenizer, AutoModelForTokenClassification,pipeline
tokenizer = AutoTokenizer.from_pretrained("quinten-datalab/AliBERT-7GB")
model = AutoModelForTokenMaskedLM.from_pretrained("quinten-datalab/AliBERT-7GB")
fill_mask=pipeline("fill-mask",model=model,tokenizer=tokenizer)
nlp_AliBERT=fill_mask("La prise de greffe a été systématiquement réalisée au niveau de la face interne de la [MASK] afin de limiter la plaie cicatricielle.")
[{'score': 0.7724128365516663,
'token': 6749,
'token_str': 'cuisse',
'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la cuisse afin de limiter la plaie cicatricielle.'},
{'score': 0.09472355246543884,
'token': 4915,
'token_str': 'jambe',
'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la jambe afin de limiter la plaie cicatricielle.'},
{'score': 0.03340734913945198,
'token': 2050,
'token_str': 'main',
'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la main afin de limiter la plaie cicatricielle.'},
{'score': 0.030924487859010696,
'token': 844,
'token_str': 'face',
'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la face afin de limiter la plaie cicatricielle.'},
{'score': 0.012518334202468395,
'token': 3448,
'token_str': 'joue',
'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la joue afin de limiter la plaie cicatricielle.'}]
Metrics and results
The model has been evaluted in the following downstream tasks
Biomedical Named Entity Recognition (NER)
AliBERT: A Pre-trained Language Model for French Biomedical Text