Anne Abeillé

Also published as: Anne Abeille


2025

Les modèles auto-supervisés omnilingues de traitement de la parole sont adaptables mais manquent de plausibilité écologique et cognitive. Entraînés sur des corpus monolingues, ils négligent le multi- linguisme réel et le code-switching. De précédents travaux suggèrent que de tels modèles procèdent à des regroupements en langues dans l’espace latent, mais cela pourrait être dû à des biais acoustiques ou paralinguistiques plutôt qu’à de véritables traitements linguistiques. Nous avons entraîné un modèle WAV2VEC2 sur des données multilingues de Maurice, incluant des locuteurs plurilingues et du code-switching, et avons étudié les représentations latentes du modèle. Nos analyses montrent que les facteurs acoustiques et paralinguistiques sont encodés sans apprentissage actif, tandis que le regroupement par langue émerge avec un réel apprentissage. Ces résultats éclairent ainsi sur les véritable capacités linguistiques et paralinguistiques des modèles auto-supervisés de la parole.

2022

Gender biases in syntax have been documented for languages with grammatical gender for cases where mixed-gender coordination structures take masculine agreement, or with male-first preference in the ordering of pairs (Adam and Eve). On the basis of various annotated corpora spanning different genres (fiction, newspapers, speech and web), we show another syntactic gender bias: masculine pronouns are more often subjects than feminine pronouns, in both English and French. We find the same bias towards masculine subjects for French human nouns, which then refer to males and females. Comparing the subject of passive verbs and the object of active verbs, we show that this syntactic function bias is not reducible to a bias in semantic role assignment since it is also found with non-agentive subjects. For French fiction, we also found that the masculine syntactic function bias is larger in text written by male authors – female authors seem to be unbiased. We finally discuss two principles as possible explanations, ‘Like Me’ and ‘Easy first’, and examine the effect of the discourse tendency for men being agents and topics. We conclude by addressing the impact of such biases in language technologies.

2019

2013

2010

We present a new reference Grammar of French (La Grande Grammaire du français), which is a collective project (gathering around fifty contributors), producing a book (about 2200 pages, to be published en 2011) and associated databases. Like the recent reference grammars of the other Romance Languages, it takes into account the important results of the linguistic research of the past thrity years, while aiming at a non specialist audience and avoiding formalization. We differ from existing French grammar by being focused on contemporary French from a purely descriptive point of view, and by taking spoken data into account. We include a description of all the syntactic phenomena, as well as lexical, semantic, pragmatic and prosodic insights, specially as they interact with syntax. The analysis concerns the data from contemporary written French, but also includes data from spoken corpora and regional or non standard French (when accessible). Throughout the grammar, a simple phrase structure grammar is used, in order to maintain a common representation. The analyses are modular with a strict division of labor between morphology, syntax and semantics. From the syntactic point of view, POS are also distinguished from grammatical relations (or functions). The databases include a terminological glossary, different lexical databases for certain POS, certain valence frames and certain semantic classes, and a bibliographical database.

2004

2001

Dans cet article nous présentons les premiers résultats de l’exploitation d’un Corpus français arboré (Abeillé et al., 2001). Le corpus comprend 1 million de mots entièrement annotés et validé pour les parties du discours, la morphologie, les mots composés et les lemmes, et partiellement annotés pour les constituants syntaxiques. Il comprend des extraits de journaux parus entre 1989 et 1993 et écrits par divers auteurs, et couvre différents thèmes (économie, littérature, politique, etc.). Après avoir expliqué comment ce corpus a été construit, et comment l’exploiter à l’aide d’un outil de recherche spécifique, nous exposerons quelques résultats linguistiques concernant les fréquences et les préférences lexicales et syntaxiques. Nous expliquerons pourquoi nous pensons que certains de ces résultats sont pertinents en linguistique théorique et en psycholinguistique.

2000

1998

1992

1990

1989

1988