Plongements Interprétables pour la Détection de Biais Cachés (Interpretable Embeddings for Hidden Biases Detection)

Tom Bourgeade; Philippe Muller; Tim Van de Cruys

Plongements Interprétables pour la Détection de Biais Cachés (Interpretable Embeddings for Hidden Biases Detection)

Tom Bourgeade, Philippe Muller, Tim Van de Cruys

Abstract

De nombreuses tâches sémantiques en TAL font usage de données collectées de manière semiautomatique, ce qui est souvent source d’artefacts indésirables qui peuvent affecter négativement les modèles entraînés sur celles-ci. Avec l’évolution plus récente vers des modèles à usage générique pré-entraînés plus complexes, et moins interprétables, ces biais peuvent conduire à l’intégration de corrélations indésirables dans des applications utilisateurs. Récemment, quelques méthodes ont été proposées pour entraîner des plongements de mots avec une meilleure interprétabilité. Nous proposons une méthode simple qui exploite ces représentations pour détecter de manière préventive des corrélations lexicales faciles à apprendre, dans divers jeux de données. Nous évaluons à cette fin quelques modèles de plongements interprétables populaires pour l’anglais, en utilisant à la fois une évaluation intrinsèque, et un ensemble de tâches sémantiques en aval, et nous utilisons la qualité interprétable des plongements afin de diagnostiquer des biais potentiels dans les jeux de données associés.

Anthology ID:: 2021.jeptalnrecital-taln.6
Volume:: Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Month:: 6
Year:: 2021
Address:: Lille, France
Editors:: Pascal Denis, Natalia Grabar, Amel Fraisse, Rémi Cardon, Bernard Jacquemin, Eric Kergosien, Antonio Balvet
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA
Note:
Pages:: 64–80
Language:: French
URL:: https://aclanthology.org/2021.jeptalnrecital-taln.6
DOI:
Bibkey:
Cite (ACL):: Tom Bourgeade, Philippe Muller, and Tim Van de Cruys. 2021. Plongements Interprétables pour la Détection de Biais Cachés (Interpretable Embeddings for Hidden Biases Detection). In Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale, pages 64–80, Lille, France. ATALA.
Cite (Informal):: Plongements Interprétables pour la Détection de Biais Cachés (Interpretable Embeddings for Hidden Biases Detection) (Bourgeade et al., JEP/TALN/RECITAL 2021)
Copy Citation:
PDF:: https://preview.aclanthology.org/nschneid-patch-5/2021.jeptalnrecital-taln.6.pdf
Data: BoolQ, IMDb Movie Reviews, SNLI, SST, UR-FUNNY

PDF Search