Abstract
Les modèles vectoriels de sémantique distributionnelle (ou word embeddings), notamment ceux produits par les méthodes neuronales, posent des questions de reproductibilité et donnent des représentations différentes à chaque utilisation, même sans modifier leurs paramètres. Nous présentons ici un ensemble d’expérimentations permettant de mesurer cette instabilité, à la fois globalement et localement. Globalement, nous avons mesuré le taux de variation du voisinage des mots sur trois corpus différents, qui est estimé autour de 17% pour les 25 plus proches voisins d’un mot. Localement, nous avons identifié et caractérisé certaines zones de l’espace sémantique qui montrent une relative stabilité, ainsi que des cas de grande instabilité.- Anthology ID:
- 2018.jeptalnrecital-long.3
- Volume:
- Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
- Month:
- 5
- Year:
- 2018
- Address:
- Rennes, France
- Editors:
- Pascale Sébillot, Vincent Claveau
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA
- Note:
- Pages:
- 33–46
- Language:
- French
- URL:
- https://aclanthology.org/2018.jeptalnrecital-long.3
- DOI:
- Cite (ACL):
- Bénédicte Pierrejean and Ludovic Tanguy. 2018. Etude de la reproductibilité des word embeddings : repérage des zones stables et instables dans le lexique (Reproducibility of word embeddings : identifying stable and unstable zones in the semantic space). In Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN, pages 33–46, Rennes, France. ATALA.
- Cite (Informal):
- Etude de la reproductibilité des word embeddings : repérage des zones stables et instables dans le lexique (Reproducibility of word embeddings : identifying stable and unstable zones in the semantic space) (Pierrejean & Tanguy, JEP/TALN/RECITAL 2018)
- PDF:
- https://preview.aclanthology.org/landing_page/2018.jeptalnrecital-long.3.pdf