@inproceedings{el-boukkouri-2020-entrainer,
title = "R{\'e}-entra{\^i}ner ou entra{\^i}ner soi-m{\^e}me ? Strat{\'e}gies de pr{\'e}-entra{\^i}nement de {BERT} en domaine m{\'e}dical (Re-train or train from scratch ? Pre-training strategies for {BERT} in the medical domain )",
author = "El Boukkouri, Hicham",
editor = "Benzitoun, Christophe and
Braud, Chlo{\'e} and
Huber, Laurine and
Langlois, David and
Ouni, Slim and
Pogodalla, Sylvain and
Schneider, St{\'e}phane",
booktitle = "Actes de la 6e conf{\'e}rence conjointe Journ{\'e}es d'{\'E}tudes sur la Parole (JEP, 33e {\'e}dition), Traitement Automatique des Langues Naturelles (TALN, 27e {\'e}dition), Rencontre des {\'E}tudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (R{\'E}CITAL, 22e {\'e}dition). Volume 3 : Rencontre des {\'E}tudiants Chercheurs en Informatique pour le TAL",
month = "6",
year = "2020",
address = "Nancy, France",
publisher = "ATALA et AFCP",
url = "https://preview.aclanthology.org/fix-sig-urls/2020.jeptalnrecital-recital.3/",
pages = "29--42",
language = "fra",
abstract = "Les mod{\`e}les BERT employ{\'e}s en domaine sp{\'e}cialis{\'e} semblent tous d{\'e}couler d{'}une strat{\'e}gie assez simple : utiliser le mod{\`e}le BERT originel comme initialisation puis poursuivre l{'}entra{\^i}nement de celuici sur un corpus sp{\'e}cialis{\'e}. Il est clair que cette approche aboutit {\`a} des mod{\`e}les plut{\^o}t performants (e.g. BioBERT (Lee et al., 2020), SciBERT (Beltagy et al., 2019), BlueBERT (Peng et al., 2019)). Cependant, il para{\^i}t raisonnable de penser qu{'}entra{\^i}ner un mod{\`e}le directement sur un corpus sp{\'e}cialis{\'e}, en employant un vocabulaire sp{\'e}cialis{\'e}, puisse aboutir {\`a} des plongements mieux adapt{\'e}s au domaine et donc faire progresser les performances. Afin de tester cette hypoth{\`e}se, nous entra{\^i}nons des mod{\`e}les BERT {\`a} partir de z{\'e}ro en testant diff{\'e}rentes configurations m{\^e}lant corpus g{\'e}n{\'e}raux et corpus m{\'e}dicaux et biom{\'e}dicaux. Sur la base d'{\'e}valuations men{\'e}es sur quatre t{\^a}ches diff{\'e}rentes, nous constatons que le corpus de d{\'e}part influence peu la performance d{'}un mod{\`e}le BERT lorsque celui-ci est r{\'e}-entra{\^i}n{\'e} sur un corpus m{\'e}dical."
}
Markdown (Informal)
[Ré-entraîner ou entraîner soi-même ? Stratégies de pré-entraînement de BERT en domaine médical (Re-train or train from scratch ? Pre-training strategies for BERT in the medical domain )](https://preview.aclanthology.org/fix-sig-urls/2020.jeptalnrecital-recital.3/) (El Boukkouri, JEP/TALN/RECITAL 2020)
ACL