Rééquilibrer la distribution des labels tout en éliminant le temps d’attente inhérent dans l’apprentissage actif multi-label appliqué aux transformers
Maxime Arens, Jose G Moreno, Mohand Boughanem, Lucile Callebert
Abstract
L’annotation des données est cruciale pour l’apprentissage automatique, notamment dans les domaines techniques, où la qualité et la quantité des données annotées affectent significativement l’efficacité des modèles entraînés. L’utilisation de personnel humain est coûteuse, surtout lors de l’annotation pour la classification multi-label, les instances pouvant être associées à plusieurs labels.L’apprentissage actif (AA) vise à réduire les coûts d’annotation en sélectionnant intelligemment des instances pour l’annotation, plutôt que de les annoter de manière aléatoire. L’attention récente portée aux transformers a mis en lumière le potentiel de l’AA dans ce contexte.Cependant, dans des environnements pratiques, la mise en œuvre de l’AA rencontre des défis pratiques. Notamment, le temps entre les cycles d’AA n’est pas mis à contribution par les annotateurs. Pour résoudre ce problème, nous examinons des méthodes alternatives de sélection d’instances, visant à maximiser l’efficacité de l’annotation en s’intégrant au processus de l’AA. Nous commençons par évaluer deux méthodes existantes, en utilisant respectivement un échantillonnage aléatoire et des informations de cycle d’AA périmées. Ensuite, nous proposons notre méthode novatrice basée sur l’annotation des instances pour rééquilibrer la distribution des labels. Notre approche atténue les biais, améliore les performances du modèle (jusqu’à une amélioration de 23 sur le score F1), réduit les disparités dépendantes de la stratégie (diminution d’environ 50 sur l’écart type) et diminue le déséquilibre des libellés (diminution de 30 sur le ratio moyen de déséquilibre).- Anthology ID:
- 2024.jeptalnrecital-trad.10
- Volume:
- Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès
- Month:
- 7
- Year:
- 2024
- Address:
- Toulouse, France
- Editors:
- Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA and AFPC
- Note:
- Pages:
- 16–17
- Language:
- French
- URL:
- https://aclanthology.org/2024.jeptalnrecital-trad.10
- DOI:
- Cite (ACL):
- Maxime Arens, Jose G Moreno, Mohand Boughanem, and Lucile Callebert. 2024. Rééquilibrer la distribution des labels tout en éliminant le temps d’attente inhérent dans l’apprentissage actif multi-label appliqué aux transformers. In Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès, pages 16–17, Toulouse, France. ATALA and AFPC.
- Cite (Informal):
- Rééquilibrer la distribution des labels tout en éliminant le temps d’attente inhérent dans l’apprentissage actif multi-label appliqué aux transformers (Arens et al., JEP/TALN/RECITAL 2024)
- PDF:
- https://preview.aclanthology.org/nschneid-patch-4/2024.jeptalnrecital-trad.10.pdf