|
--- |
|
license: mit |
|
language: |
|
- fr |
|
library_name: transformers |
|
tags: |
|
- Biomedical |
|
- Medical |
|
- French-Biomedical |
|
Mask token: |
|
- [MASK] |
|
widget: |
|
- text: "A l’admission, l’examen clinique mettait en évidence : - une hypotension artérielle avec une pression [MASK] à 6 mmHg." |
|
example_title: "Example 1" |
|
- text: "Le patient a été diagnostiqué avec une [MASK] lobaire aiguë et a été traité avec des antibiotiques appropriés" |
|
example_title: "Example 2" |
|
- text: "En mars 2001, le malade fut opéré, mais vu le caractère hémorragique de la tumeur, une simple biopsie surrénalienne a été réalisée ayant montré l’aspect de [MASK] malin non Hodgkinien de haut grade de malignité." |
|
example_title: "Example 3" |
|
- text: "La cytologie urinaire n’a mis en évidence que des cellules [MASK] normales et l’examen cyto-bactériologique des urines était stérile." |
|
example_title: "Example 4" |
|
- text: "La prise de greffe a été systématiquement réalisée au niveau de la face interne de la [MASK] afin de limiter la plaie cicatricielle." |
|
example_title: "Example 5" |
|
--- |
|
|
|
# quinten-datalab/AliBERT-7GB: AliBERT: is a pre-trained language model for French biomedical text. |
|
|
|
|
|
# Introduction |
|
|
|
AliBERT: is a pre-trained language model for French biomedical text. It is trained with masked language model like RoBERTa. |
|
|
|
Here are the main contributions of our work: |
|
A French biomedical language model, a language-specific and domain-specific PLM, which can be used to represent French biomedical text for different downstream tasks. |
|
A normalization of a Unigram sub-word tokenization of French biomedical textual input which improves our vocabulary and overall performance of the models trained. |
|
AliBERT outperforms other French PLMs in different downstream tasks. It is a foundation model that achieved state-of-the-art results on French biomedical text. |
|
|
|
# Data |
|
The pre-training corpus was gathered from different sub-corpora.It is composed of 7GB French biomedical textual documents. Here are the sources used. |
|
|
|
|Dataset name| Quantity| Size | |
|
|----|---|---| |
|
|Drug database| 23K| 550Mb | |
|
|RCP| 35K| 2200Mb| |
|
|Articles| 500K| 4300Mb | |
|
|Thesis| 300K|300Mb | |
|
|Cochrane| 7.6K| 27Mb| |
|
|
|
|
|
# How to use alibert-quinten/Oncology-NER with HuggingFace |
|
|
|
Load quinten-datalab/AliBERT-7GB fill-mask model and the tokenizer used to train AliBERT: |
|
|
|
```python |
|
from transformers import AutoTokenizer, AutoModelForTokenClassification,pipeline |
|
|
|
tokenizer = AutoTokenizer.from_pretrained("quinten-datalab/AliBERT-7GB") |
|
|
|
model = AutoModelForTokenMaskedLM.from_pretrained("quinten-datalab/AliBERT-7GB") |
|
|
|
fill_mask=pipeline("fill-mask",model=model,tokenizer=tokenizer) |
|
nlp_AliBERT=fill_mask("La prise de greffe a été systématiquement réalisée au niveau de la face interne de la [MASK] afin de limiter la plaie cicatricielle.") |
|
|
|
[{'score': 0.7724128365516663, |
|
'token': 6749, |
|
'token_str': 'cuisse', |
|
'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la cuisse afin de limiter la plaie cicatricielle.'}, |
|
{'score': 0.09472355246543884, |
|
'token': 4915, |
|
'token_str': 'jambe', |
|
'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la jambe afin de limiter la plaie cicatricielle.'}, |
|
{'score': 0.03340734913945198, |
|
'token': 2050, |
|
'token_str': 'main', |
|
'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la main afin de limiter la plaie cicatricielle.'}, |
|
{'score': 0.030924487859010696, |
|
'token': 844, |
|
'token_str': 'face', |
|
'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la face afin de limiter la plaie cicatricielle.'}, |
|
{'score': 0.012518334202468395, |
|
'token': 3448, |
|
'token_str': 'joue', |
|
'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la joue afin de limiter la plaie cicatricielle.'}] |
|
``` |
|
|
|
# Metrics and results |
|
The model has been evaluted in the following downstream tasks |
|
|
|
## Biomedical Named Entity Recognition (NER) |
|
|
|
## |
|
AliBERT: A Pre-trained Language Model for French Biomedical Text |