Géométrie de l’auto-attention en classification : quand la géométrie remplace l’attention
Loïc Fosse, Duc Hau Nguyen, Pascale Sébillot, Guillaume Gravier
Abstract
Plusieurs études ont mis en évidence l’anisotropie des plongements issus d’un modèle BERT au sein d’un énoncé, c’est-à-dire leur concentration dans une direction donnée, notamment dans une tâche de classification. Dans cet article, nous cherchons à mieux comprendre ce phénomène et comment cette convergence se construit en analysant finement les propriétés géométriques des plongements, des clés et des valeurs dans une couche d’auto-attention. Nous montrons que la direction vers laquelle les plongements s’alignent caractérise la classe d’appartenance de l’énoncé. Nous étudions ensuite le fonctionnement intrinsèque de la couche d’auto-attention et les mécanismes en jeu entre clés et valeurs pour garantir la construction d’une représentation anisotrope. Cette construction se fait de manière progressive lorsque plusieurs couches sont empilés. Elle s’avère également robuste à des contraintes externes sur la distribution des poids d’attention, compensées par le modèle en jouant sur les valeurs et les clés.- Anthology ID:
- 2023.jeptalnrecital-long.11
- Volume:
- Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs
- Month:
- 6
- Year:
- 2023
- Address:
- Paris, France
- Editors:
- Christophe Servan, Anne Vilnat
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA
- Note:
- Pages:
- 137–150
- Language:
- French
- URL:
- https://aclanthology.org/2023.jeptalnrecital-long.11
- DOI:
- Cite (ACL):
- Loïc Fosse, Duc Hau Nguyen, Pascale Sébillot, and Guillaume Gravier. 2023. Géométrie de l’auto-attention en classification : quand la géométrie remplace l’attention. In Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs, pages 137–150, Paris, France. ATALA.
- Cite (Informal):
- Géométrie de l’auto-attention en classification : quand la géométrie remplace l’attention (Fosse et al., JEP/TALN/RECITAL 2023)
- PDF:
- https://preview.aclanthology.org/nschneid-patch-3/2023.jeptalnrecital-long.11.pdf