Mathias Vast


2025

Les architectures de recherche d’information (RI) neuronale, en particulier celles basées sur l’interaction, sont des modèles très performants dont les mécanismes restent largement méconnus. La plupart des travaux visant à expliquer leur comportement se sont attachés à décrire des processus en surface (par exemple, quels éléments de l’entrée influencent la prédiction ? le modèle respecte t-il les axiomes connus de la RI ?) mais ne décrivent pas précisément le processus d’appariement. Dans cet article, nous apportons un nouvel éclairage sur le mécanisme de correspondance en analysant le processus d’attention, et en mettant en évidence le rôle crucial de certaines têtes d’attention ainsi que la nature des signaux qui sont manipulés.