2024
pdf
abs
Quel workflow pour les sciences du texte ?
Antoine Widlöcher
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
Le triomphe des approches adossées à des méthodes d’apprentissage, dans de nombreuses branches de notre discipline, tend à occulter une part importante des domaines d’investigation pourtant intimement liée au traitement automatique des langues. Nous proposerons, pour commencer, de faire un pas dans la direction opposée, en faveur de ce que nous nommerons ici les sciences du texte, en les distinguant de l’ingénierie de la langue, dont l’omniprésence explique largement cette occultation. Nous voudrions ensuite contribuer à mettre en évidence la méthode propre à cette branche des savoirs, méthode commune pouvant permettre de faire sortir de l’isolement des travaux hétérogènes liés par un même rapport au texte. Nous voudrions enfin nous concentrer sur la phase de ce workflow qui demeure actuellement la plus difficile, celle de l’expérimentation sur corpus, et proposer un cadre pour la mise en place d’environnements d’expérimentation appropriés.
2022
pdf
abs
Validity, Agreement, Consensuality and Annotated Data Quality
Anaëlle Baledent
|
Yann Mathet
|
Antoine Widlöcher
|
Christophe Couronne
|
Jean-Luc Manguin
Proceedings of the Thirteenth Language Resources and Evaluation Conference
Reference annotated (or gold-standard) datasets are required for various common tasks such as training for machine learning systems or system validation. They are necessary to analyse or compare occurrences or items annotated by experts, or to compare objects resulting from any computational process to objects annotated by experts. But, even if reference annotated gold-standard corpora are required, their production is known as a difficult problem, from both a theoretical and practical point of view. Many studies devoted to theses issues conclude that multi-annotation is most of the time a necessity. That inter-annotator agreement measure, which is required to check the reliability of data and the reproducibility of an annotation task, and thus to establish a gold standard, is another thorny problem. Fine analysis of available metrics for this specific task then becomes essential. Our work is part of this effort and more precisely focuses on several problems, which are rarely discussed, although they are intrinsically linked with the interpretation of metrics. In particular, we focus here on the complex relations between agreement and reference (of which agreement among annotators is supposed to be an indicator), and the emergence of consensus. We also introduce the notion of consensuality as another relevant indicator.
2016
pdf
Évaluation des annotations : ses principes et ses pièges [Annotation evaluation: principles and pitfalls]
Yann Mathet
|
Antoine Widlöcher
Traitement Automatique des Langues, Volume 57, Numéro 2 : TAL et éthique [NLP and ethics]
2015
pdf
The Unified and Holistic Method Gamma (γ) for Inter-Annotator Agreement Measure and Alignment
Yann Mathet
|
Antoine Widlöcher
|
Jean-Philippe Métivier
Computational Linguistics, Volume 41, Issue 3 - September 2015
2012
pdf
Manual Corpus Annotation: Giving Meaning to the Evaluation Metrics
Yann Mathet
|
Antoine Widlöcher
|
Karën Fort
|
Claire François
|
Olivier Galibert
|
Cyril Grouin
|
Juliette Kahn
|
Sophie Rosset
|
Pierre Zweigenbaum
Proceedings of COLING 2012: Posters
2011
pdf
abs
Une approche holiste et unifiée de l’alignement et de la mesure d’accord inter-annotateurs (A holistic and unified approach to aligning and measuring inter-annotator agreement)
Yann Mathet
|
Antoine Widlöcher
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
L’alignement et la mesure d’accord sur des textes multi-annotés sont des enjeux majeurs pour la constitution de corpus de référence. Nous défendons dans cet article l’idée que ces deux tâches sont par essence interdépendantes, la mesure d’accord nécessitant de s’appuyer sur des annotations alignées, tandis que les choix d’alignements ne peuvent se faire qu’à l’aune de la mesure qu’ils induisent. Nous proposons des principes formels relevant cette gageure, qui s’appuient notamment sur la notion de désordre du système constitué par l’ensemble des jeux d’annotations d’un texte. Nous posons que le meilleur alignement est celui qui minimise ce désordre, et que la valeur de désordre obtenue rend compte simultanément du taux d’accord. Cette approche, qualifiée d’holiste car prenant en compte l’intégralité du système pour opérer, est algorithmiquement lourde, mais nous sommes parvenus à produire une implémentation d’une version légèrement dégradée de cette dernière, et l’avons intégrée à la plate-forme d’annotation Glozz.
pdf
abs
Stratégie d’exploration de corpus multi-annotés avec GlozzQL (Multi-annotated corpus exploration strategy with GlozzQL)
Yann Mathet
|
Antoine Widlöcher
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
La multiplication des travaux sur corpus, en linguistique computationnelle et en TAL, conduit à la multiplication des campagnes d’annotation et des corpus multi-annotés, porteurs d’informations relatives à des phénomènes variés, envisagés par des annotateurs multiples, parfois automatiques. Pour mieux comprendre les phénomènes que ces campagnes prennent pour objets, ou pour contrôler les données en vue de l’établissement d’un corpus de référence, il est nécessaire de disposer d’outils permettant d’explorer les annotations. Nous présentons une stratégie possible et son opérationalisation dans la plate-forme Glozz par le langage GlozzQL.
pdf
Aligner : un outil d’alignement et de mesure d’accord inter-annotateurs (Aligner: a tool for aligning and measuring inter-annotator agreement)
Yann Mathet
|
Antoine Widlöcher
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
pdf
GlozzQL : un langage de requêtes incrémental pour les textes annotés (GlozzQL: an incremental query language for annotated texts)
Yann Mathet
|
Antoine Widlöcher
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
2009
pdf
abs
ANNODIS: une approche outillée de l’annotation de structures discursives
Marie-Paule Péry-Woodley
|
Nicholas Asher
|
Patrice Enjalbert
|
Farah Benamara
|
Myriam Bras
|
Cécile Fabre
|
Stéphane Ferrari
|
Lydia-Mai Ho-Dac
|
Anne Le Draoulec
|
Yann Mathet
|
Philippe Muller
|
Laurent Prévot
|
Josette Rebeyrolle
|
Ludovic Tanguy
|
Marianne Vergez-Couret
|
Laure Vieu
|
Antoine Widlöcher
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Le projet ANNODIS vise la construction d’un corpus de textes annotés au niveau discursif ainsi que le développement d’outils pour l’annotation et l’exploitation de corpus. Les annotations adoptent deux points de vue complémentaires : une perspective ascendante part d’unités de discours minimales pour construire des structures complexes via un jeu de relations de discours ; une perspective descendante aborde le texte dans son entier et se base sur des indices pré-identifiés pour détecter des structures discursives de haut niveau. La construction du corpus est associée à la création de deux interfaces : la première assiste l’annotation manuelle des relations et structures discursives en permettant une visualisation du marquage issu des prétraitements ; une seconde sera destinée à l’exploitation des annotations. Nous présentons les modèles et protocoles d’annotation élaborés pour mettre en oeuvre, au travers de l’interface dédiée, la campagne d’annotation.
pdf
abs
La plate-forme Glozz : environnement d’annotation et d’exploration de corpus
Antoine Widlöcher
|
Yann Mathet
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
La nécessité d’une interaction systématique entre modèles, traitements et corpus impose la disponibilité d’annotations de référence auxquelles modèles et traitements pourront être confrontés. Or l’établissement de telles annotations requiert un cadre formel permettant la représentation d’objets linguistiques variés, et des applications permettant à l’annotateur de localiser sur corpus et de caractériser les occurrences des phénomènes observés. Si différents outils d’annotation ont vu le jour, ils demeurent souvent fortement liés à un modèle théorique et à des objets linguistiques particuliers, et ne permettent que marginalement d’explorer certaines structures plus récemment appréhendées expérimentalement, notamment à granularité élevée et en matière d’analyse du discours. La plate-forme Glozz répond à ces différentes contraintes et propose un environnement d’exploration de corpus et d’annotation fortement configurable et non limité a priori au contexte discursif dans lequel elle a initialement vu le jour.
pdf
La plate-forme d’annotation Glozz
Antoine Widlöcher
|
Yann Mathet
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
2008
pdf
Articulation des traitements en TAL. Principes méthodologiques et mise en œuvre dans la plate-forme LinguaStream [Scheduling natural language processing steps : Methodological principles and implemantation in the LinguaStream platform]
Antoine Widlöcher
|
Frédérik Bilhaut
Traitement Automatique des Langues, Volume 49, Numéro 2 : Plate-formes pour le traitement automatique des langues [Platforms for Natural Language Processing]
2006
pdf
LinguaStream: An Integrated Environment for Computational Linguistics Experimentation
Frédérik Bilhaut
|
Antoine Widlöcher
Demonstrations
pdf
abs
Analyse par contraintes de l’organisation du discours
Antoine Widlöcher
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Nous abordons ici la question de l’analyse de la structure du discours, du point de vue de sa description formelle et de son traitement automatique. Nous envisageons l’hypothèse selon laquelle une approche par contraintes pourrait permettre la prise en charge de structures discursives variées d’une part, et de différents types d’indices de leur manifestation d’autre part. Le formalisme CDML que nous introduisons vise précisément une telle approche.
2005
pdf
abs
La plate-forme LinguaStream : un outil d’exploration linguistique sur corpus
Antoine Widlöcher
|
Frédérik Bilhaut
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
À travers la présentation de la plate-forme LinguaStream, nous présentons certains principes méthodologiques et différents modèles d’analyse pouvant permettre l’articulation de traitements sur corpus. Nous envisageons en particulier les besoins nés de perspectives émergentes en TAL telles que l’analyse du discours.
2004
pdf
abs
Analyse macro-sémantique: vers une analyse rhétorique du discours
Antoine Widlöcher
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)
S’inscrivant dans les domaines du TAL, de la linguistique sur corpus et de l’informatique documentaire, l’étude présentée ici opère plus précisément dans la perspective d’une analyse macrosémantique de la structuration discursive. Plus spécifiquement, nous proposons une analyse sémantique des structures rhétoriques du discours. Après avoir envisagé certaines voies ouvertes en la matière, nous définissons notre approche, et présentons les expérimentations conduites, dans le cadre du projet GeoSem, sur les structures énumératives dans le domaine géographique.