Marie Flesch


2025

This paper addresses a bias of gender inference systems: their binary nature. Based on the observation that, for French, systems based on pattern-matching of grammatical gender markers in “I am” expressions perform better than machine-learning approaches (Ciot et al. 2013), we examine the use of grammatical gender by non-binary individuals. We describe the construction of a corpus of texts produced by non-binary authors on Reddit, (formely) Twitter and three forums. Our linguistic analysis shows three main patterns of use: authors who use non-binary markers, authors who consistently use one grammatical gender, and authors who use both feminine and masculine markers. Using this knowledge, we make proposals for the improvements of existing gender inference systems based on grammatical gender.
Cet article présente un système de détection du genre basé sur le genre grammatical, conçu pour le français, créé afin de mesurer les inégalités de genre dans les espaces francophones en ligne. Il décrit tout d’abord la création et le test du système, qui extrait le genre grammatical dans les expressions de type je suis depuis un lexique, sur un corpus étiqueté. Ensuite, il propose une étude de cas en deux parties, avec l’application du système sur un corpus de 11.8 millions de commentaires publiés sur r/france, le plus grand forum francophone de Reddit, suivie d’une étude des dynamiques de participation des femmes et des hommes dans cet espace. Cette recherche montre qu’un système de détection du genre simple, basé sur du pattern-matching, atteint une haute performance (précision de 96% dans le corpus test), et permet de dévoiler d’importantes inégalités de participation sur un forum francophone de premier plan.