---
license: mit
language:
- fr
library_name: transformers
tags:
- Biomedical
- Medical
- French-Biomedical
Mask token:
- [MASK]
widget:
- text: "A l’admission, l’examen clinique mettait en évidence : - une hypotension artérielle avec une pression [MASK] à 6 mmHg."
example_title: "Example 1"
- text: "Le patient a été diagnostiqué avec une [MASK] lobaire aiguë et a été traité avec des antibiotiques appropriés"
example_title: "Example 2"
- text: "En mars 2001, le malade fut opéré, mais vu le caractère hémorragique de la tumeur, une simple biopsie surrénalienne a été réalisée ayant montré l’aspect de [MASK] malin non Hodgkinien de haut grade de malignité."
example_title: "Example 3"
- text: "La cytologie urinaire n’a mis en évidence que des cellules [MASK] normales et l’examen cyto-bactériologique des urines était stérile."
example_title: "Example 4"
- text: "La prise de greffe a été systématiquement réalisée au niveau de la face interne de la [MASK] afin de limiter la plaie cicatricielle."
example_title: "Example 5"
---
# quinten-datalab/AliBERT-7GB: AliBERT: is a pre-trained language model for French biomedical text.
# Introduction
AliBERT: is a pre-trained language model for French biomedical text. It is trained with masked language model like RoBERTa.
Here are the main contributions of our work:
-
A French biomedical language model, a language-specific and domain-specific PLM, which can be used to represent French biomedical text for different downstream tasks.
-
A normalization of a Unigram sub-word tokenization of French biomedical textual input which improves our vocabulary and overall performance of the models trained.
-
It is a foundation model that achieved state-of-the-art results on French biomedical text.
The Paper can be found here: https://aclanthology.org/2023.bionlp-1.19/
# Data
The pre-training corpus was gathered from different sub-corpora.It is composed of 7GB French biomedical textual documents. Here are the sources used.
|Dataset name| Quantity| Size |
|----|---|---|
|Drug leaflets (Base de données publique des médicament)| 23K| 550Mb |
|RCP (a French equivalent of Physician’s Desk Reference)| 35K| 2200Mb|
|Articles (biomedical articles from ScienceDirect)| 500K| 4300Mb |
|Thesis (Thesis manuscripts in French)| 300K|300Mb |
|Cochrane (articles from Cochrane database)| 7.6K| 27Mb|
*Table 1: Pretraining dataset*
# How to use alibert-quinten/Oncology-NER with HuggingFace
Load quinten-datalab/AliBERT-7GB fill-mask model and the tokenizer used to train AliBERT:
```python
from transformers import AutoTokenizer, AutoModelForTokenClassification,pipeline
tokenizer = AutoTokenizer.from_pretrained("quinten-datalab/AliBERT-7GB")
model = AutoModelForTokenMaskedLM.from_pretrained("quinten-datalab/AliBERT-7GB")
fill_mask=pipeline("fill-mask",model=model,tokenizer=tokenizer)
nlp_AliBERT=fill_mask("La prise de greffe a été systématiquement réalisée au niveau de la face interne de la [MASK] afin de limiter la plaie cicatricielle.")
[{'score': 0.7724128365516663,
'token': 6749,
'token_str': 'cuisse',
'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la cuisse afin de limiter la plaie cicatricielle.'},
{'score': 0.09472355246543884,
'token': 4915,
'token_str': 'jambe',
'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la jambe afin de limiter la plaie cicatricielle.'},
{'score': 0.03340734913945198,
'token': 2050,
'token_str': 'main',
'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la main afin de limiter la plaie cicatricielle.'},
{'score': 0.030924487859010696,
'token': 844,
'token_str': 'face',
'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la face afin de limiter la plaie cicatricielle.'},
{'score': 0.012518334202468395,
'token': 3448,
'token_str': 'joue',
'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la joue afin de limiter la plaie cicatricielle.'}]
```
# Metrics and results
The model has been evaluted in the following downstream tasks
## Biomedical Named Entity Recognition (NER)
The model is evaluated on two (CAS and QUAERO) publically available Frech biomedical text.
#### CAS dataset
Models |
CamemBERT |
AliBERT |
DrBERT |
Entities |
P
|
R |
F1 |
P
|
R |
F1 |
P
|
R |
F1 |
Substance |
0.96 |
0.87 |
0.91 |
0.96 |
0.91 |
0.93 |
0.95 |
0.91 |
0.93 |
Symptom | 0.89 | 0.91 | 0.90 | 0.96 | 0.98 | 0.97 | 0.94 | 0.98 | 0.96 |
Anatomy | 0.94 | 0.91 | 0.88 | 0.97 | 0.97 | 0.98 | 0.96 | 0.97 | 0.96 |
Value | 0.88 | 0.46 | 0.60 | 0.98 | 0.99 | 0.98 | 0.93 | 0.93 | 0.93 |
Pathology | 0.79 | 0.70 | 0.74 | 0.81 | 0.39 | 0.52 | 0.85 | 0.57 | 0.68 |
Macro Avg | 0.89 | 0.79 | 0.81 | 0.94 | 0.85 | 0.88 | 0.92 | 0.87 | 0.89 |
Table 2: NER performances on CAS dataset
#### QUAERO dataset
Models |
CamemBERT |
AliBERT |
DrBERT |
Entity | P | R | F1 | P | R | F1 | P | R | F1 |
Anatomy | 0.649 | 0.641 | 0.645 | 0.795 | 0.811 | 0.803 | 0.799 | 0.801 | 0.800 |
Chemical | 0.844 | 0.847 | 0.846 | 0.878 | 0.893 | 0.885 | 0.898 | 0.818 | 0.856 |
Device | 0.000 | 0.000 | 0.000 | 0.506 | 0.356 | 0.418 | 0.549 | 0.338 | 0.419} |
Disorder | 0.772 | 0.818 | 0.794 | 0.857 | 0.843 | 0.850 | 0.883 | 0.809 | 0.845 |
Procedure | 0.880 | 0.894 | 0.887 | 0.969 | 0.967 | 0.968 | 0.944 | 0.976 | 0.960 |
Macro Avg | 0.655 | 0.656 | 0.655 | 0.807 | 0.783 | 0.793 | 0.818 | 0.755 | 0.782 |
Table 3: NER performances on QUAERO dataset
##AliBERT: A Pre-trained Language Model for French Biomedical Text