2022
pdf
abs
COSMOS: Experimental and Comparative Studies of Concept Representations in Schoolchildren
Jeanne Villaneau
|
Farida Said
Proceedings of the Thirteenth Language Resources and Evaluation Conference
COSMOS is a multidisciplinary research project investigating schoolchildren’s beliefs and representations of specific concepts under control variables (age, gender, language spoken at home). Seven concepts are studied: friend, father, mother, villain, work, television and dog. We first present the protocol used and the data collected from a survey of 184 children in two age groups (6-7 and 9-11 years) in four schools in Brittany (France). A word-level lexical study shows that children’s linguistic proficiency and lexical diversity increase with age, and we observe an interaction effect between gender and age on lexical diversity as measured with MLR (Measure of Lexical Richness). In contrast, none of the control variables affects lexical density. We also present the lemmas that schoolchildren most often associate with each concept. Generalized linear mixed-effects models reveal significant effects of age, gender, and home language on some concept-lemma associations and specific interactions between age and gender. Most of the identified effects are documented in the child development literature. To better understand the process of semantic construction in children, additional lexical analyses at the n-gram, chunk, and clause levels would be helpful. We briefly present ongoing and planned work in this direction. The COSMOS data will soon be made freely available to the scientific community.
2021
pdf
bib
abs
Corpus EN-Istex : un corpus d’articles scientifiques annoté manuellement en entités nommées (ISTEX-EN Corpus: a scientific paper corpus manually annotated in named entities)
Enza Morale
|
Denis Maurel
|
Jeanne Villaneau
|
Jean-Yves Antoine
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 : Démonstrations
Nous présentons ici une nouvelle ressource libre : le corpus EN-ISTEX, un corpus de deux cents articles scientifiques annotés manuellement en entités nommées. Ces articles ont été extraits des deux éditeurs scientifiques les plus importants de la plateforme ISTEX. Tous les domaines sont concernés, même si les sciences dites dures, en particulier les sciences du vivant et de la santé, sont prépondérantes. Parmi ceux-ci vingt articles ont été multi-annotés afin de vérifier l’adéquation du guide d’annotation et la fiabilité de l’annotation. L’accord inter annotateurs sur ces vingt textes s’élève à 91 %.
2019
pdf
Redonner du sens à l’accord interannotateur : vers une interprétation des mesures d’accord en termes de reproductibilité de l’annotation [Interpreting inter-annotator agreement measures : towards an interpretation in terms of annotation reproducibility]
Dany Bregeon
|
Jean-Yves Antoine
|
Jeanne Villaneau
|
Anaïs Halftermeyer
Traitement Automatique des Langues, Volume 60, Numéro 2 : Corpus annotés [Annotated corpora]
2018
pdf
Complex and Precise Movie and Book Annotations in French Language for Aspect Based Sentiment Analysis
Stefania Pecore
|
Jeanne Villaneau
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)
2015
pdf
abs
Mesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire
Hai Hieu Vu
|
Jeanne Villaneau
|
Farida Saïd
|
Pierre-François Marteau
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Cet article présente une méthode pour mesurer la similarité sémantique entre phrases qui utilise Wikipédia comme unique ressource linguistique et qui est, de ce fait, utilisable pour un grand nombre de langues. Basée sur une représentation vectorielle, elle utilise une indexation aléatoire pour réduire la dimension des espaces manipulés. En outre, elle inclut une technique de calcul des vecteurs de termes qui corrige les défauts engendrés par l’utilisation d’un corpus aussi général que Wikipédia. Le système a été évalué sur les données de SemEval 2014 en anglais avec des résultats très encourageants, au-dessus du niveau moyen des systèmes en compétition. Il a également été testé sur un ensemble de paires de phrases en français, à partir de ressources que nous avons construites et qui seront mises à la libre disposition de la communauté scientifique.
2014
pdf
Weighted Krippendorff’s alpha is a more reliable metrics for multi-coders ordinal annotations: experimental studies on emotion, opinion and coreference annotation
Jean-Yves Antoine
|
Jeanne Villaneau
|
Anaïs Lefeuvre
Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics
pdf
abs
ANCOR_Centre, a large free spoken French coreference corpus: description of the resource and reliability measures
Judith Muzerelle
|
Anaïs Lefeuvre
|
Emmanuel Schang
|
Jean-Yves Antoine
|
Aurore Pelletier
|
Denis Maurel
|
Iris Eshkol
|
Jeanne Villaneau
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)
This article presents ANCOR_Centre, a French coreference corpus, available under the Creative Commons Licence. With a size of around 500,000 words, the corpus is large enough to serve the needs of data-driven approaches in NLP and represents one of the largest coreference resources currently available. The corpus focuses exclusively on spoken language, it aims at representing a certain variety of spoken genders. ANCOR_Centre includes anaphora as well as coreference relations which involve nominal and pronominal mentions. The paper describes into details the annotation scheme and the reliability measures computed on the resource.
2013
pdf
ANCOR, the first large French speaking corpus of conversational speech annotated in coreference to be freely available (ANCOR, premier corpus de français parlé d’envergure annoté en coréférence et distribué librement) [in French]
Judith Muzerelle
|
Anaïs Lefeuvre
|
Jean-Yves Antoine
|
Emmanuel Schang
|
Denis Maurel
|
Jeanne Villaneau
|
Iris Eshkol
Proceedings of TALN 2013 (Volume 2: Short Papers)
2012
pdf
Parenthetical Classification for Information Extraction
Ismail El Maarouf
|
Jeanne Villaneau
Proceedings of COLING 2012: Posters
pdf
abs
A French Fairy Tale Corpus syntactically and semantically annotated
Ismaïl El Maarouf
|
Jeanne Villaneau
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)
Fairy tales, folktales and more generally children stories have lately attracted the Natural Language Processing (NLP) community. As such, very few corpora exist and linguistic resources are lacking. The work presented in this paper aims at filling this gap by presenting a syntactically and semantically annotated corpus. It focuses on the linguistic analysis of a Fairy Tales Corpus, and provides the description of the syntactic and semantic resources developed for Information Extraction. Resources include syntactic dependency relation annotation for 120 verbs; referential annotation, which is concerned with annotating each anaphoric occurrence and Proper Name with the most specific noun in the text; ontology matching for a substantial part of the nouns in the corpus; semantic role labelling for 41 verbs using the FrameNet database. The article also sums up previous analyses of this corpus and indicates possible uses of this corpus for the NLP community.
2011
pdf
abs
Extraction de patrons sémantiques appliquée à la classification d’Entités Nommées (Extraction of semantic patterns applied to the classification of named entities)
Ismaïl El Maarouf
|
Jeanne Villaneau
|
Sophie Rosset
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
La variabilité des corpus constitue un problème majeur pour les systèmes de reconnaissance d’entités nommées. L’une des pistes possibles pour y remédier est l’utilisation d’approches linguistiques pour les adapter à de nouveaux contextes : la construction de patrons sémantiques peut permettre de désambiguïser les entités nommées en structurant leur environnement syntaxico-sémantique. Cet article présente une première réalisation sur un corpus de presse d’un système de correction. Après une étape de segmentation sur des critères discursifs de surface, le système extrait et pondère les patrons liés à une classe d’entité nommée fournie par un analyseur. Malgré des modèles encore relativement élémentaires, les résultats obtenus sont encourageants et montrent la nécessité d’un traitement plus approfondi de la classe Organisation.
pdf
bib
abs
Evaluation de la détection des émotions, des opinions ou des sentiments : dictature de la majorité ou respect de la diversité d’opinions ? (Evaluation of the detection of emotions, opinions or sentiments: majority dictatorship or respect for opinion diversity?)
Jean-Yves Antoine
|
Marc Le Tallec
|
Jeanne Villaneau
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Détection d’émotion, fouille d’opinion et analyse des sentiments sont généralement évalués par comparaison des réponses du système concerné par rapport à celles contenues dans un corpus de référence. Les questions posées dans cet article concernent à la fois la définition de la référence et la fiabilité des métriques les plus fréquemment utilisées pour cette comparaison. Les expérimentations menées pour évaluer le système de détection d’émotions EmoLogus servent de base de réflexion pour ces deux problèmes. L’analyse des résultats d’EmoLogus et la comparaison entre les différentes métriques remettent en cause le choix du vote majoritaire comme référence. Par ailleurs elles montrent également la nécessité de recourir à des outils statistiques plus évolués que ceux généralement utilisés pour obtenir des évaluations fiables de systèmes qui travaillent sur des données intrinsèquement subjectives et incertaines.
2010
pdf
abs
Détection hors contexte des émotions à partir du contenu linguistique d’énoncés oraux : le système EmoLogus
Marc Le Tallec
|
Jeanne Villaneau
|
Jean-Yves Antoine
|
Agata Savary
|
Arielle Syssau-Vaccarella
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Le projet EmotiRob, soutenu par l’agence nationale de la recherche, s’est donné pour objectif de détecter des émotions dans un contexte d’application original : la réalisation d’un robot compagnon émotionnel pour des enfants fragilisés. Nous présentons dans cet article le système qui caractérise l’émotion induite par le contenu linguistique des propos de l’enfant. Il se base sur un principe de compositionnalité des émotions, avec une valeur émotionnelle fixe attribuée aux mots lexicaux, tandis que les verbes et les adjectifs agissent comme des fonctions dont le résultat dépend de la valeur émotionnelle de leurs arguments. L’article présente la méthode de calcul utilisée, ainsi que la norme lexicale émotionnelle correspondante. Une analyse quantitative et qualitative des premières expérimentations présente les différences entre les sorties du module de détection et l’annotation d’experts, montrant des résultats satisfaisants, avec la bonne détection de la valence émotionnelle dans plus de 90% des cas.
2009
pdf
abs
Détection des émotions à partir du contenu linguistique d’énoncés oraux : application à un robot compagnon pour enfants fragilisés
Marc Le Tallec
|
Jeanne Villaneau
|
Jean-Yves Antoine
|
Agata Savary
|
Arielle Syssau-Vaccarella
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Le projet ANR Emotirob aborde la question de la détection des émotions sous un cadre original : concevoir un robot compagnon émotionnel pour enfants fragilisés. Notre approche consiste à combiner détection linguistique et prosodie. Nos expériences montrent qu’un sujet humain peut estimer de manière fiable la valence émotionnelle d’un énoncé à partir de son contenu propositionnel. Nous avons donc développé un premier modèle de détection linguistique qui repose sur le principe de compositionnalité des émotions : les mots simples ont une valence émotionnelle donnée et les prédicats modifient la valence de leurs arguments. Après une description succincte du système logique de compréhension dont les sorties sont utilisées pour le calcul global de l’émotion, cet article présente la construction d’une norme émotionnelle lexicale de référence, ainsi que d’une ontologie de classes émotionnelles de prédicats, pour des enfants de 5 et 7 ans.
pdf
Deeper Spoken Language Understanding for Man-Machine Dialogue on Broader Application Domains: A Logical Alternative to Concept Spotting
Jeanne Villaneau
|
Jean-Yves Antoine
Proceedings of SRSL 2009, the 2nd Workshop on Semantic Representation of Spoken Language
2007
pdf
abs
Une expérience de compréhension en contexte de dialogue avec le système LOGUS, approche logique de la compréhension de la langue orale
Jeanne Villaneau
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
LOGUS est un système de compréhension de la langue orale dans le cadre d’un dialogue homme-machine finalisé. Il est la mise en oeuvre d’une approche logique qui utilise différents formalismes afin d’obtenir un système robuste mais néanmoins relativement extensible. Cet article décrit essentiellement l’étape de compréhension en contexte de dialogue implémentée sur LOGUS, développée et testée à partir d’un corpus de réservation hôtelière enregistré et annoté lors des travaux du groupe MEDIA du projet technolangue. Il décrit également les différentes interrogations et conclusions que peut susciter une telle expérience et les résultats obtenus par le système dans la résolution des références. Concernant l’approche elle-même, cette expérience semble montrer que le formalisme adopté pour la représentation sémantique des énoncés est bien adapté à la compréhension en contexte.
2006
pdf
abs
Results of the French Evalda-Media evaluation campaign for literal understanding
H. Bonneau-Maynard
|
C. Ayache
|
F. Bechet
|
A. Denis
|
A. Kuhn
|
F. Lefevre
|
D. Mostefa
|
M. Quignard
|
S. Rosset
|
C. Servan
|
J. Villaneau
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)
The aim of the Media-Evalda project is to evaluate the understanding capabilities of dialog systems. This paper presents the Media protocol for speech understanding evaluation and describes the results of the June 2005 literal evaluation campaign. Five systems, both symbolic or corpus-based, participated to the evaluation which is based on a common semantic representation. Different scorings have been performed on the system results. The understanding error rate, for the Full scoring is, depending on the systems, from 29% to 41.3%. A diagnosis analysis of these results is proposed.
2004
pdf
abs
The French MEDIA/EVALDA Project: the Evaluation of the Understanding Capability of Spoken Language Dialogue Systems
Laurence Devillers
|
Hélène Maynard
|
Sophie Rosset
|
Patrick Paroubek
|
Kevin McTait
|
D. Mostefa
|
Khalid Choukri
|
Laurent Charnay
|
Caroline Bousquet
|
Nadine Vigouroux
|
Frédéric Béchet
|
Laurent Romary
|
Jean-Yves Antoine
|
J. Villaneau
|
Myriam Vergnes
|
J. Goulian
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)
The aim of the MEDIA project is to design and test a methodology for the evaluat ion of context-dependent and independent spoken dialogue systems. We propose an evaluation paradigm based on the use of test suites from real-world corpora and a common semantic representation and common metrics. This paradigm should allow us to diagnose the context-sensitive understanding capability of dialogue system s. This paradigm will be used within an evaluation campaign involving several si tes all of which will carry out the task of querying information from a database .
2003
pdf
bib
abs
Quand le TAL robuste s’attaque au langage parlé : analyse incrémentale pour la compréhension de la parole spontanée
Jean-Yves Antoine
|
Jérôme Goulian
|
Jeanne Villaneau
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans cet article, nous discutons de l’application au langage parlé des techniques d’analyse syntaxique robuste développées pour l’écrit. Nous présentons deux systèmes de compréhension de parole spontané en situation de dialogue homme-machine finalisé, dont les performances montrent la pertinence de ces méthodes pour atteindre une compréhension fine et robuste des énoncés oraux.
2002
pdf
abs
LOGUS : un système formel de compréhension du français parlé spontané-présentation et évaluation
Jeanne Villaneau
|
Jean-Yves Antoine
|
Olivier Ridoux
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Le système de compréhension présenté dans cet article propose une approche logique et lexicalisée associant syntaxe et sémantique pour une analyse non sélective et hors-cadres sémantiques prédéterminés. L’analyse se déroule suivant deux grandes étapes ; un chunking est suivi d’une mise en relation des chunks qui aboutit à la construction de la représentation sémantique finale : formule logique ou graphe conceptuel. Nous montrons comment le formalisme a dû évoluer pour accroître l’importance de la syntaxe et améliorer la généricité des règles. Malgré l’utilisation d’une connaissance pragmatico-sémantique liée à l’application, la spécificité du système est circonscrite au choix des mots du lexique et à la définition de cette connaissance. Les résultats d’une campagne d’évaluation ont mis en évidence une bonne tolérance aux inattendus et aux phénomènes complexes, prouvant ainsi la validité de l’approche.
pdf
Predictive and objective evaluation of speech understanding: the “challenge” evaluation campaign of the I3 speech workgroup of the French CNRS
Jean-Yves Antoine
|
Caroline Bousquet-Vernhettes
|
Jérôme Goulian
|
Mohamed Zakaria Kurdi
|
Sophie Rosset
|
Nadine Vigouroux
|
Jeanne Villaneau
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)
2000
pdf
Obtaining Predictive Results with an Objective Evaluation of Spoken Dialogue Systems: Experiments with the DCR Assessment Paradigm
Jean-Yves Antoine
|
Jacques Siroux
|
Jean Caelen
|
Jeanne Villaneau
|
Jérôme Goulian
|
Mohamed Ahafhaf
Proceedings of the Second International Conference on Language Resources and Evaluation (LREC’00)