Multiple Tasks Integration: Tagging, Syntactic and Semantic Parsing as a Single Task
Timothée Bernard
Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume
Departing from both sequential pipelines and monotask systems, we propose Multiple Tasks Integration (MTI), a multitask paradigm orthogonal to weight sharing. The essence of MTI is to process the input iteratively but concurrently at multiple levels of analysis, where each decision is based on all of the structures that are already inferred and free from usual ordering constraints. We illustrate MTI with a system that performs part-of-speech tagging, syntactic dependency parsing and semantic dependency parsing. We observe that both the use of reinforcement learning and the release from sequential constraints are beneficial to the quality of the syntactic and semantic parses. We also observe that our model adopts an easy-first strategy that consists, on average, of predicting shorter dependencies before longer ones, but that syntax is not always tackled before semantics.
Intégration de tâches: étiquetage morpho-syntaxique, analyse syntaxique et analyse sémantique traités comme une tâche unique (Multiple Tasks Integration: Tagging, Syntactic and Semantic Parsing as a Single Task )
Timothée Bernard
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Nous présentons des résumés en français et en anglais de l’article (Bernard, 2021), présenté lors de la conférence 16th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2021). L’article décrit l’intégration de tâches, un ensemble de principes orthogonaux au partage de paramètres dont le but est de maximiser l’interaction entre différentes tâches. L’intégration de tâches est illustrée avec un système analysant de manière jointe les niveaux morpho-syntaxiques, syntaxiques et sémantiques. La stratégie adoptée par ce système, entraîné par renforcement, est aussi analysée.
Tabouid: un jeu de langage et de culture générale généré à partir de Wikipédia (Tabouid: a Wikipedia-based word guessing game)
Timothée Bernard
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Nous présentons des résumés en français et en anglais de l’article (Bernard, 2020), présenté lors de la conférence 58th Annual Meeting of the Association for Computational Linguistics (ACL 2020). L’article détaille comment un éventail de techniques relativement simples de TAL et d’apprentissage automatique peuvent être combinées pour générer à partir de Wikipédia le contenu d’un jeu de langage et de culture générale. L’article peut être vu comme définissant un projet stimulant pour des étudiant·e·s en TAL et le jeu lui-même a effectivement été implémenté sous la forme de Tabouid, une application Android et iOS.
Tabouid: a Wikipedia-based word guessing game
Timothée Bernard
Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations
We present Tabouid, a word-guessing game automatically generated from Wikipedia. Tabouid contains 10,000 (virtual) cards in English, and as many in French, covering not only words and linguistic expressions but also a variety of topics including artists, historical events or scientific concepts. Each card corresponds to a Wikipedia article, and conversely, any article could be turned into a card. A range of relatively simple NLP and machine-learning techniques are effectively integrated into a two-stage process. First, a large subset of Wikipedia articles are scored - this score estimates the difficulty, or alternatively, the playability of the page. Then, the best articles are turned into cards by selecting, for each of them, a list of banned words based on its content. We believe that the game we present is more than mere entertainment and that, furthermore, this paper has pedagogical potential.
Mandarinograd: A Chinese Collection of Winograd Schemas
Timothée Bernard
Ting Han
Proceedings of the Twelfth Language Resources and Evaluation Conference
This article introduces Mandarinograd, a corpus of Winograd Schemas in Mandarin Chinese. Winograd Schemas are particularly challenging anaphora resolution problems, designed to involve common sense reasoning and to limit the biases and artefacts commonly found in natural language understanding datasets. Mandarinograd contains the schemas in their traditional form, but also as natural language inference instances (ENTAILMENT or NO ENTAILMENT pairs) as well as in their fully disambiguated candidate forms. These two alternative representations are often used by modern solvers but existing datasets present automatically converted items that sometimes contain syntactic or semantic anomalies. We detail the difficulties faced when building this corpus and explain how weavoided the anomalies just mentioned. We also show that Mandarinograd is resistant to a statistical method based on a measure of word association.
What Meaning-Form Correlation Has to Compose With: A Study of MFC on Artificial and Natural Language
Timothee Mickus
Timothée Bernard
Denis Paperno
Proceedings of the 28th International Conference on Computational Linguistics
Compositionality is a widely discussed property of natural languages, although its exact definition has been elusive. We focus on the proposal that compositionality can be assessed by measuring meaning-form correlation. We analyze meaning-form correlation on three sets of languages: (i) artificial toy languages tailored to be compositional, (ii) a set of English dictionary definitions, and (iii) a set of English sentences drawn from literature. We find that linguistic phenomena such as synonymy and ungrounded stop-words weigh on MFC measurements, and that straightforward methods to mitigate their effects have widely varying results depending on the dataset they are applied to. Data and code are made publicly available.
Fine-Grained Discourse Structures in Continuation Semantics
Timothée Bernard
Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue
In this work, we are interested in the computation of logical representations of discourse. We argue that all discourse connectives are anaphors obeying different sets of constraints and show how this view allows one to account for the semantically parenthetical use of attitude verbs and verbs of report (e.g., think, say) and for sequences of conjunctions (A CONJ_1 B CONJ_2 C). We implement this proposal in event semantics using de Groote (2006)’s dynamic framework.
Une interprétation probabiliste des informations de factivité (Factuality information as sets of probabilities)
Timothée Bernard
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts
Nous présentons une nouvelle formalisation de la factivité, la dimension représentant le degré de croyance qu’une source – l’auteur ou tout autre agent mentionné dans un texte – accorde à une éventualité donnée. Nous insistons sur l’aspect dynamique de cette notion ainsi que sur ses interactions avec la structure discursive. Nous montrons comment une interprétation en termes d’ensembles de probabilités permet de s’affranchir des principaux problèmes que posait la formalisation utilisée dans les travaux précédents au calcul d’une factivité cohérente à l’échelle du texte dans sa totalité.
Conjonctions de subordination, verbes de dire et d’attitude propositionnelle : une modélisation STAG pour le discours (Modelling Subordinate Conjunctions, Attitude Verbs and Reporting Verbs in STAG: a Discourse Perspective)
Timothée Bernard
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 3 : RECITAL
Nous proposons une nouvelle modélisation en grammaire d’arbres adjoints synchrone (STAG) syntaxe/sémantique pour les conjonctions de subordination (ConjSub) et les verbes de dire et d’attitude propositionnelle (VAP ; dire, penser, croire, etc.). Cette modélisation, plus riche que les modélisations traditionnelles, est conçue pour l’analyse du discours et fondée sur l’observation que ces deux catégories sont loin d’être homogènes. En effet, des travaux antérieurs ont montré d’une part que les occurrences de ConjSub pouvaient être divisées en deux classes aux propriétés syntaxiques et sémantiques différentes, d’autre part que les VAP présentaient en discours deux usages distincts : évidentiel et intentionnel. Notre proposition vise donc à rendre compte précisément de ces différences tout en modélisant les interactions entre VAP et ConjSub.
Modelling Discourse in STAG: Subordinate Conjunctions and Attributing Phrases
Timothée Bernard
Laurence Danlos
Proceedings of the 12th International Workshop on Tree Adjoining Grammars and Related Formalisms (TAG+12)