Adrien Betrancourt


2024

pdf
Évaluation de la Similarité Textuelle : Entre Sémantique et Surface dans les Représentations Neuronales
Julie Tytgat | Guillaume Wisniewski | Adrien Betrancourt
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position

La mesure de la similarité entre textes, qu’elle soit basée sur le sens, les caractères ou la phonétique, est essentielle dans de nombreuses applications. Les réseaux neuronaux, en transformant le texte en vecteurs, offrent une méthode pratique pour évaluer cette similarité. Cependant, l’utilisation de ces représentations pose un défi car les critères sous-jacents à cette similarité ne sont pas clairement définis, oscillant entre sémantique et surface. Notre étude, basée sur des expériences contrôlées, révèle que les différences de surface ont un impact plus significatif que les différences de sémantique sur les mesures de similarité entre les représentations neuronales des mots construites par de nombreux modèles pré-entrainés. Ces résultats soulèvent des questions sur la nature même de la similarité mesurée par les modèles neuronaux et leurs capacités à capturer les nuances sémantiques.