Portabilité linguistique des modèles de langage pré-appris appliqués à la tâche de dialogue humain-machine en français
Ahmed Njifenjou, Virgile Sucal, Bassam Jabaian, Fabrice Lefèvre
Abstract
Dans cet article, nous proposons une étude de la portabilité linguistique des modèles de langage pré-appris (MLPs) appliqués à une tâche de dialogue à domaine ouvert. La langue cible (L_T) retenue dans cette étude est le français. Elle dispose de peu de ressources spécifiques pour la tâche considérée et nous permet de réaliser une évaluation humaine. La langue source (L_S) est l’anglais qui concentre la majorité des travaux récents dans ce domaine. Construire des MLPs spécifiques pour chaque langue nécessite de collecter de nouveaux jeux de données et cela est coûteux. Ainsi, à partir des ressources disponibles en L_S et L_T, nous souhaitons évaluer les performances atteignables par un système de conversation en L_T . Pour cela, nous proposons trois approches : TrainOnTarget où le corpus L_S est traduit vers L_T avant l’affinage du modèle, TestOnSource où un modèle L_S est couplé avec des modules de traduction au moment du décodage et TrainOnSourceAdaptOnTarget, qui utilise un MLP multilingue - ici BLOOM (BigScience Workshop, 2022) - avec l’architecture MAD-X Adapter (Pfeiffer et al., 2020) pour apprendre la tâche en L_S et l’adapter à L_T . Les modèles sont évalués dans des conditions de dialogue oral et les stratégies sont comparées en termes de qualité perçue lors l’interaction.- Anthology ID:
- 2023.jeptalnrecital-international.17
- Volume:
- Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale
- Month:
- 6
- Year:
- 2023
- Address:
- Paris, France
- Editors:
- Christophe Servan, Anne Vilnat
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA
- Note:
- Pages:
- 148–158
- Language:
- French
- URL:
- https://aclanthology.org/2023.jeptalnrecital-international.17
- DOI:
- Cite (ACL):
- Ahmed Njifenjou, Virgile Sucal, Bassam Jabaian, and Fabrice Lefèvre. 2023. Portabilité linguistique des modèles de langage pré-appris appliqués à la tâche de dialogue humain-machine en français. In Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale, pages 148–158, Paris, France. ATALA.
- Cite (Informal):
- Portabilité linguistique des modèles de langage pré-appris appliqués à la tâche de dialogue humain-machine en français (Njifenjou et al., JEP/TALN/RECITAL 2023)
- PDF:
- https://preview.aclanthology.org/emnlp22-frontmatter/2023.jeptalnrecital-international.17.pdf