@inproceedings{touchent-etal-2023-camembert,
title = "{C}amem{BERT}-bio : Un mod{\`e}le de langue fran{\c{c}}ais savoureux et meilleur pour la sant{\'e}",
author = "Touchent, Rian and
Romary, Laurent and
De La Clergerie, Eric",
editor = "Servan, Christophe and
Vilnat, Anne",
booktitle = "Actes de CORIA-TALN 2023. Actes de la 30e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://preview.aclanthology.org/Ingest-2025-COMPUTEL/2023.jeptalnrecital-long.25/",
pages = "323--334",
language = "fra",
abstract = "Les donn{\'e}es cliniques dans les h{\^o}pitaux sont de plus en plus accessibles pour la recherche {\`a} travers les entrep{\^o}ts de donn{\'e}es de sant{\'e}, cependant ces documents sont non-structur{\'e}s. Il est donc n{\'e}cessaire d`extraire les informations des comptes-rendus m{\'e}dicaux. L`utilisation du transfert d`apprentissage gr{\^a}ce {\`a} des mod{\`e}les de type BERT comme CamemBERT ont permis des avanc{\'e}es majeures, notamment pour la reconnaissance d`entit{\'e}s nomm{\'e}es. Cependant, ces mod{\`e}les sont entra{\^i}n{\'e}s pour le langage courant et sont moins performants sur des donn{\'e}es biom{\'e}dicales. C`est pourquoi nous proposons un nouveau jeu de donn{\'e}es biom{\'e}dical public fran{\c{c}}ais sur lequel nous avons poursuivi le pr{\'e}-entra{\^i}nement de CamemBERT. Ainsi, nous pr{\'e}sentons une premi{\`e}re version de CamemBERT-bio, un mod{\`e}le public sp{\'e}cialis{\'e} pour le domaine biom{\'e}dical fran{\c{c}}ais qui montre un gain de 2,54 points de F-mesure en moyenne sur diff{\'e}rents jeux d'{\'e}valuations de reconnaissance d`entit{\'e}s nomm{\'e}es biom{\'e}dicales."
}
Markdown (Informal)
[CamemBERT-bio : Un modèle de langue français savoureux et meilleur pour la santé](https://preview.aclanthology.org/Ingest-2025-COMPUTEL/2023.jeptalnrecital-long.25/) (Touchent et al., JEP/TALN/RECITAL 2023)
ACL