Adaptation des modèles de langue à des domaines de spécialité par un masquage sélectif fondé sur le genre et les caractéristiques thématiques

Anas Belfathi, Ygor Gallina, Nicolas Hernandez, Laura Monceaux, Richard Dufour


Abstract
Les modèles de langue pré-entraînés ont permis de réaliser des avancées significatives dans diverses tâches de traitement automatique du langage naturel (TALN).Une des caractéristiques des modèles reposant sur une architecture Transformeur concerne la stratégie de masquage utilisée pour capturer les relations syntaxiques et sémantiques inhérentes à une langue. Dans les architectures de type encodeur, comme par exemple BERT, les mots à masquer sont choisis aléatoirement. Cette stratégie ne tient néanmoins pas compte des caractéristiques linguistiques spécifiques à un domaine.Dans ce travail, nous proposons de réaliser un masquage sélectif des mots en fonction de leur saillance thématique dans les documents dans lesquels ils se produisent et de leur spécificité au genre de document.Les performances des modèles résultant d’un pré-entraînement continu dans le domaine juridique soulignent l’efficacité de notre approche sur le benchmark LexGLUE en langue anglaise.
Anthology ID:
2024.jeptalnrecital-taln.19
Volume:
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
Month:
7
Year:
2024
Address:
Toulouse, France
Editors:
Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA and AFPC
Note:
Pages:
283–294
Language:
French
URL:
https://aclanthology.org/2024.jeptalnrecital-taln.19
DOI:
Bibkey:
Cite (ACL):
Anas Belfathi, Ygor Gallina, Nicolas Hernandez, Laura Monceaux, and Richard Dufour. 2024. Adaptation des modèles de langue à des domaines de spécialité par un masquage sélectif fondé sur le genre et les caractéristiques thématiques. In Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position, pages 283–294, Toulouse, France. ATALA and AFPC.
Cite (Informal):
Adaptation des modèles de langue à des domaines de spécialité par un masquage sélectif fondé sur le genre et les caractéristiques thématiques (Belfathi et al., JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:
https://preview.aclanthology.org/nschneid-patch-4/2024.jeptalnrecital-taln.19.pdf