Pierre-Jean Larpin


Fixing paper assignments

  1. Please select all papers that belong to the same person.
  2. Indicate below which author they should be assigned to.
Provide a valid ORCID iD here. This will be used to match future papers to this author.
Provide the name of the school or the university where the author has received or will receive their highest degree (e.g., Ph.D. institution for researchers, or current affiliation for students). This will be used to form the new author page ID, if needed.

TODO: "submit" and "cancel" buttons here


2024

pdf bib
Les représentations contextuelles stéréotypées dans les modèles de langue français : mieux les identifier pour ne pas les reproduire
Léandre Adam-Cuvillier | Pierre-Jean Larpin | Antoine Simoulin
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position

Nous présentons une étude pour mieux identifier comment les stéréotypes se reflètent dans les modèles de langue français. Nous adaptons le jeu de données StereoSet à la langue française et suivons le même protocole expérimental que celui utilisé pour l’anglais. Alors que les stéréotypes sont connus pour évoluer en fonction des contextes culturels et temporels, notre étude identifie des similitudes avec les résultats observés pour l’anglais, notamment en ce qui concerne la corrélation entre les capacités linguistiques des modèles et la présence de biais mesurables. Nous étendons notre étude en examinant des architectures de réseaux neuronaux similaires pré-entraînées sur des corpus linguistiques différents. Nos résultats mettent en évidence l’impact crucial des données de pré-entraînement sur les biais constatés dans les modèles français. De plus, nous observons que l’utilisation de corpus multilingues pour le pré-entraînement peut avoir un effet positif sur l’atténuation des biais.