Pascal Amsili

2022

pdf abs
Investigating associative, switchable and negatable Winograd items on renewed French data sets
Xiaoou Wang | Olga Seminck | Pascal Amsili
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

The Winograd Schema Challenge (WSC) consists of a set of anaphora resolution problems resolvable only by reasoning about world knowledge. This article describes the update of the existing French data set and the creation of three subsets allowing for a more robust, fine-grained evaluation protocol of WSC in French (FWSC) : an associative subset (items easily resolvable with lexical co-occurrence), a switchable subset (items where the inversion of two keywords reverses the answer) and a negatable subset (items where applying negation on its verb reverses the answer). Experiences on these data sets with CamemBERT reach SOTA performances. Our evaluation protocol showed in addition that the higher performance could be explained by the existence of associative items in FWSC. Besides, increasing the size of training corpus improves the model’s performance on switchable items while the impact of larger training corpus remains small on negatable items.

2021

pdf
Inter-clausal Anaphora in Chinese Conditionals: a Multi-factorial Analysis
Shunting Chen | Pascal Amsili | Yiming Liang
Proceedings of the 35th Pacific Asia Conference on Language, Information and Computation

2020

pdf abs
VerNom : une base de paires morphologiques acquise sur très gros corpus (VerNom : a French derivational database acquired on a massive corpus)
Alice Missud | Pascal Amsili | Florence Villoing
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

Alors qu’une part active de la recherche en morphologie dérivationnelle s’intéresse à la compétition qui oppose les suffixations construisant des noms d’événement à partir de verbes (-age, -ment, -ion, -ure, -ance, -ade, -aison), l’accès à des données en large quantité devient nécessaire pour l’application de méthodes quantitatives. Dans l’optique de réunir des paires de verbes et de noms morphologiquement reliés dans le cadre de ces suffixations rivales, nous présentons VerNom, une base morphologique comprenant 25 857 paires verbe-nom, construite automatiquement à partir d’un corpus massif issu du web.

2019

pdf abs
Modèles de langue appliqués aux schémas Winograd français (Language Models applied to French Winograd Schemas)
Olga Seminck | Vincent Segonne | Pascal Amsili
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts

Les schémas Winograd sont des problèmes de résolution d’anaphores conçus pour nécessiter un raisonnement sur des connaissances du monde. Par construction, ils sont insensibles à des statistiques simples (co-occurrences en corpus). Pourtant, aujourd’hui, les systèmes état de l’art pour l’anglais se basent sur des modèles de langue pour résoudre les schémas (Trinh & Le, 2018). Nous présentons dans cet article une étude visant à tester des modèles similaires sur les schémas en français. Cela nous conduit à revenir sur les métriques d’évaluation utilisées dans la communauté pour les schémas Winograd. Les performances que nous obtenons, surtout comparées à celles de Amsili & Seminck (2017b), suggèrent que l’approche par modèle de langue des schémas Winograd reste limitée, sans doute en partie à cause du fait que les modèles de langue encodent très difficilement le genre de raisonnement nécessaire à la résolution des schémas Winograd.

pdf abs
Résolution des coréférences neuronale : une approche basée sur les têtes (Neural coreference resolution : a head-based approach)
Quentin Gliosca | Pascal Amsili
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts

L’avènement des approches neuronales de bout en bout a entraîné une rupture dans la façon dont était jusqu’à présent envisagée et implémentée la tâche de résolution des coréférences. Nous pensons que cette rupture impose de remettre en question la conception des mentions en termes de syntagmes maximaux, au moins pour certaines applications dont nous donnons deux exemples. Dans cette perspective, nous proposons une nouvelle formulation de la tâche, basée sur les têtes, accompagnée d’une adaptation du modèle de Lee et al. (2017) qui l’implémente.

2018

pdf
A Gold Anaphora Annotation Layer on an Eye Movement Corpus
Olga Seminck | Pascal Amsili
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)

2017

pdf abs
A Google-Proof Collection of French Winograd Schemas
Pascal Amsili | Olga Seminck
Proceedings of the 2nd Workshop on Coreference Resolution Beyond OntoNotes (CORBON 2017)

This article presents the first collection of French Winograd Schemas. Winograd Schemas form anaphora resolution problems that can only be resolved with extensive world knowledge. For this reason the Winograd Schema Challenge has been proposed as an alternative to the Turing Test. A very important feature of Winograd Schemas is that it should be impossible to resolve them with statistical information about word co-occurrences: they should be Google-proof. We propose a measure of Google-proofness based on Mutual Information, and demonstrate the method on our collection of French Winograd Schemas.

pdf abs
Schémas Winograd en français: une étude statistique et comportementale (Winograd schemas in French : a statistical and behavioral study)
Pascal Amsili | Olga Seminck
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts

Nous présentons dans cet article une collection de schémas Winograd en français, adaptée de la liste proposée par Levesque et al. (2012) pour l’anglais. Les schémas Winograd sont des problèmes de résolution d’anaphore conçus pour être IA-complets. Nous montrons que notre collection vérifie deux propriétés cruciales : elle est robuste vis-à-vis de méthodes statistiques simples (“Google-proof”), tout en étant largement dépourvue d’ambiguïté pour les sujets humains que nous avons testés.

pdf abs
A Computational Model of Human Preferences for Pronoun Resolution
Olga Seminck | Pascal Amsili
Proceedings of the Student Research Workshop at the 15th Conference of the European Chapter of the Association for Computational Linguistics

We present a cognitive computational model of pronoun resolution that reproduces the human interpretation preferences of the Subject Assignment Strategy and the Parallel Function Strategy. Our model relies on a probabilistic pronoun resolution system trained on corpus data. Factors influencing pronoun resolution are represented as features weighted by their relative importance. The importance the model gives to the preferences is in line with psycholinguistic studies. We demonstrate the cognitive plausibility of the model by running it on experimental items and simulating antecedent choice and reading times of human participants. Our model can be used as a new means to study pronoun resolution, because it captures the interaction of preferences.

2014

pdf
Learning simulation of nominal/verbal contexts through n-grams (Simulation de l’apprentissage des contextes nominaux/verbaux par n-grammes) [in French]
Perrine Brusini | Pascal Amsili | Emmanuel Chemla | Anne Christophe
Proceedings of TALN 2014 (Volume 2: Short Papers)

The Asfalda project aims to develop a French corpus with frame-based semantic annotations and automatic tools for shallow semantic analysis. We present the first part of the project: focusing on a set of notional domains, we delimited a subset of English frames, adapted them to French data when necessary, and developed the corresponding French lexicon. We believe that working domain by domain helped us to enforce the coherence of the resulting resource, and also has the advantage that, though the number of frames is limited (around a hundred), we obtain full coverage within a given domain.

2011

pdf abs
French TimeBank : un corpus de référence sur la temporalité en français (French TimeBank: a reference corpus on temporality in French)
André Bittar | Pascal Amsili | Pascal Denis
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Cet article a un double objectif : d’une part, il s’agit de présenter à la communauté un corpus récemment rendu public, le French Time Bank (FTiB), qui consiste en une collection de textes journalistiques annotés pour les temps et les événements selon la norme ISO-TimeML ; d’autre part, nous souhaitons livrer les résultats et réflexions méthodologiques que nous avons pu tirer de la réalisation de ce corpus de référence, avec l’idée que notre expérience pourra s’avérer profitable au-delà de la communauté intéressée par le traitement de la temporalité.

pdf
French TimeBank: An ISO-TimeML Annotated Reference Corpus
André Bittar | Pascal Amsili | Pascal Denis | Laurence Danlos
Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies

2002

pdf abs
Discours et compositionnalité
Laurent Roussarie | Pascal Amsili
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Partant du principe que certaines phrases peuvent réaliser plusieurs actes de langage, i.e., dans une interface sémantique–pragmatique, plusieurs constituants de discours séparés, nous proposons, dans le cadre de la SDRT, un algorithme de construction de représentations sémantiques qui prend en compte tous les aspects discursifs dès que possible et de façon compositionnelle.