2025
pdf
bib
abs
Characterizing non-binary French: A first step towards debiasing gender inference
Marie Flesch
|
Heather Burnett
Proceedings of the 6th Workshop on Gender Bias in Natural Language Processing (GeBNLP)
This paper addresses a bias of gender inference systems: their binary nature. Based on the observation that, for French, systems based on pattern-matching of grammatical gender markers in “I am” expressions perform better than machine-learning approaches (Ciot et al. 2013), we examine the use of grammatical gender by non-binary individuals. We describe the construction of a corpus of texts produced by non-binary authors on Reddit, (formely) Twitter and three forums. Our linguistic analysis shows three main patterns of use: authors who use non-binary markers, authors who consistently use one grammatical gender, and authors who use both feminine and masculine markers. Using this knowledge, we make proposals for the improvements of existing gender inference systems based on grammatical gender.
2023
pdf
bib
abs
Uniformité de la densité informationnelle: le cas du redoublement du sujet
Yiming Liang
|
Pascal Amsili
|
Heather Burnett
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs
Nous présentons les résultats d’une expérience visant à savoir si la densité d’information (ou de surprise) affecte le redoublement du sujet dans des conversations spontanées. En utilisant la version française de GPT, nous estimons la surprise lexicale du sujet NP étant donné un contexte précédent et vérifions si la surprise du sujet affecte son redoublement. L’analyse de régression à effet mixte montre que, en plus des facteurs qui ont été montrés comme affectant le redoublement du sujet dans la littérature, la prévisibilité du sujet nominal est un prédicteur important du non-redoublement. Les sujets nominaux moins prédictibles tendent à être redoublés par rapport à ceux qui sont plus prédictibles. Notre travail confirme l’intérêt de l’hypothèse de l’Uniformité de la densité informationnelle (UID) pour le français et illustre l’opérationalisation de la densité informationnelle à l’aide de grands modèles neuronaux de langage.
2021
pdf
bib
Using Word Embeddings to Uncover Discourses
Quentin Dénigot
|
Heather Burnett
Proceedings of the Society for Computation in Linguistics 2021
2020
pdf
bib
abs
Dogwhistles as Identity-based interpretative variation
Quentin Dénigot
|
Heather Burnett
Proceedings of the Probability and Meaning Conference (PaM 2020)
The following paper presents a formal model for the description of dogwhistles. Dogwhistles are a class of terms or expressions often used in political discourse that are used with the goal of being interpreted in different ways by different communities. The model presented here describes this phenomenon using a variation on the Social Meaning Games framework that uses probability distributions over possible interpretation functions as well as RSA/IBR reasoning.
2019
pdf
bib
A Conceptual Spaces Model of Socially Motivated Language Change
Heather Burnett
|
Olivier Bonami
Proceedings of the Society for Computation in Linguistics (SCiL) 2019