Antoine Chaffin


2021

pdf bib
La génération de textes artificiels en substitution ou en complément de données d’apprentissage (Generating artificial texts as substitution or complement of training data )
Vincent Claveau | Antoine Chaffin | Ewa Kijak
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

La qualité des textes générés artificiellement s’est considérablement améliorée avec l’apparition des transformers. La question d’utiliser ces modèles pour augmenter les données d’apprentissage pour des tâches d’apprentissage supervisé se pose naturellement. Dans cet article, cette question est explorée sous 3 aspects : (i) les données artificielles sont-elles un complément efficace ? (ii) peuvent-elles remplacer les données d’origines quand ces dernières ne peuvent pas être distribuées, par exemple pour des raisons de confidentialité ? (iii) peuvent-elles améliorer l’explicabilité des classifieurs ? Différentes expériences sont menées sur une tâche de classification en utilisant des données générées artificiellement en adaptant des modèles GPT-2. Les résultats montrent que les données artificielles ne sont pas encore suffisamment bonnes et nécessitent un pré-traitement pour améliorer significativement les performances. Nous montrons que les approches sac-de-mots bénéficient le plus de telles augmentations de données.