Hugo Boulanger
2022
Generating unlabelled data for a tri-training approach in a low resourced NER task
Hugo Boulanger
|
Thomas Lavergne
|
Sophie Rosset
Proceedings of the Third Workshop on Deep Learning for Low-Resource Natural Language Processing
Training a tagger for Named Entity Recognition (NER) requires a substantial amount of labeled data in the task domain. Manual labeling is a tedious and complicated task. Semisupervised learning methods can reduce the quantity of labeled data necessary to train a model. However, these methods require large quantities of unlabeled data, which remains an issue in many cases.We address this problem by generating unlabeled data. Large language models have proven to be powerful tools for text generation. We use their generative capacity to produce new sentences and variations of the sentences of our available data. This generation method, combined with a semi-supervised method, is evaluated on CoNLL and I2B2. We prepare both of these corpora to simulate a low resource setting. We obtain significant improvements for semisupervised learning with synthetic data against supervised learning on natural data.
2020
Évaluation systématique d’une méthode commune de génération (Systematic evaluation of a common generation method)
Hugo Boulanger
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL
Avec l’augmentation de l’utilisation du traitement automatique des langues arrivent plusieurs problèmes dont l’absence de données dans les nouveaux domaines. Certaines approches d’apprentissage tel que l’apprentissage zero-shot ou par transfert tentent de résoudre ces problèmes. Une solution idéale serait de générer des données annotées à partir de bases de connaissances des domaines d’intérêt. Le but de notre travail est d’évaluer une méthode de génération simple et de trouver les critères permettant de la mettre en oeuvre correctement. Pour cela, nous comparons les performances d’un modèle obtenu sur des tâches d’annotation quand il est entraîné sur des données réelles ou sur des données générées. Grâce aux résultats obtenus et à des analyses effectuées sur les données, nous avons pu déterminer des bonnes pratiques d’utilisation de cette méthode de génération sur la tâche d’annotation.
Search