2024
pdf
abs
Exploring the Emotional Dimension of French Online Toxic Content
Valentina Dragos
|
Delphine Battistelli
|
Fatou Sow
|
Aline Etienne
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
One of the biggest hurdles for the effective analysis of data collected on social platforms is the need for deeper insights on the content and meaning of this data. Emotion annotation can bring new perspectives on this issue and can enable the identification of content–specific features. This study aims at investigating the ways in which variation in online content can be explored through emotion annotation and corpus-based analysis. The paper describes the emotion annotation of three data sets in French composed of extremist, sexist and hateful messages respectively. To this end, first a fine-grained, corpus annotation scheme was used to annotate the data sets and then several empirical studies were carried out to characterize the content in the light of emotional categories. Results suggest that emotion annotations can provide new insights for online content analysis and stronger empirical background for automatic content detection.
2022
pdf
abs
Une chaîne de traitement pour prédire et appréhender la complexité des textes pour enfants d’un point de vue linguistique (A Processing Chain to Explain the Complexity of Texts for Children From a Linguistic and Psycho-linguistic Point of View)
Delphine Battistelli
|
Aline Etienne
|
Rashedur Rahman
|
Charles Teissèdre
|
Gwénolé Lecorvé
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Nos travaux abordent la question de la mesure de la complexité d’un texte vis-à-vis d’une cible de lecteurs, les enfants en âge de lire, au travers de la mise en place d’une chaîne de traitements. Cette chaîne vise à extraire des descripteurs linguistiques, principalement issus de travaux en psycholinguistique et de travaux sur la lisibilité, mobilisables pour appréhender la complexité d’un texte. En l’appliquant sur un corpus de textes de fiction, elle permet d’étudier des corrélations entre certains descripteurs linguistiques et les tranches d’âges associées aux textes par les éditeurs. L’analyse de ces corrélations tend à valider la pertinence de la catégorisation en âges par les éditeurs. Elle justifie ainsi la mobilisation d’un tel corpus pour entraîner à partir des âges éditeurs un modèle de prédiction de l’âge cible d’un texte.
pdf
abs
Angry or Sad ? Emotion Annotation for Extremist Content Characterisation
Valentina Dragos
|
Delphine Battistelli
|
Aline Etienne
|
Yolène Constable
Proceedings of the Thirteenth Language Resources and Evaluation Conference
This paper examines the role of emotion annotations to characterize extremist content released on social platforms. The analysis of extremist content is important to identify user emotions towards some extremist ideas and to highlight the root cause of where emotions and extremist attitudes merge together. To address these issues our methodology combines knowledge from sociological and linguistic annotations to explore French extremist content collected online. For emotion linguistic analysis, the solution presented in this paper relies on a complex linguistic annotation scheme. The scheme was used to annotate extremist text corpora in French. Data sets were collected online by following semi-automatic procedures for content selection and validation. The paper describes the integrated annotation scheme, the annotation protocol that was set-up for French corpora annotation and the results, e.g. agreement measures and remarks on annotation disagreements. The aim of this work is twofold: first, to provide a characterization of extremist contents; second, to validate the annotation scheme and to test its capacity to capture and describe various aspects of emotions.
pdf
abs
A (Psycho-)Linguistically Motivated Scheme for Annotating and Exploring Emotions in a Genre-Diverse Corpus
Aline Etienne
|
Delphine Battistelli
|
Gwénolé Lecorvé
Proceedings of the Thirteenth Language Resources and Evaluation Conference
This paper presents a scheme for emotion annotation and its manual application on a genre-diverse corpus of texts written in French. The methodology introduced here emphasizes the necessity of clarifying the main concepts implied by the analysis of emotions as they are expressed in texts, before conducting a manual annotation campaign. After explaining whatentails a deeply linguistic perspective on emotion expression modeling, we present a few NLP works that share some common points with this perspective and meticulously compare our approach with them. We then highlight some interesting quantitative results observed on our annotated corpus. The most notable interactions are on the one hand between emotion expression modes and genres of texts, and on the other hand between emotion expression modes and emotional categories. These observation corroborate and clarify some of the results already mentioned in other NLP works on emotion annotation.
2021
pdf
abs
TREMoLo-Tweets: A Multi-Label Corpus of French Tweets for Language Register Characterization
Jade Mekki
|
Gwénolé Lecorvé
|
Delphine Battistelli
|
Nicolas Béchet
Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2021)
The casual, neutral, and formal language registers are highly perceptible in discourse productions. However, they are still poorly studied in Natural Language Processing (NLP), especially outside English, and for new textual types like tweets. To stimulate research, this paper introduces a large corpus of 228,505 French tweets (6M words) annotated in language registers. Labels are provided by a multi-label CamemBERT classifier trained and checked on a manually annotated subset of the corpus, while the tweets are selected to avoid undesired biases. Based on the corpus, an initial analysis of linguistic traits from either human annotators or automatic extractions is provided to describe the corpus and pave the way for various NLP tasks. The corpus, annotation guide and classifier are available on
http://tremolo.irisa.fr.
pdf
abs
TREMoLo : un corpus multi-étiquettes de tweets en français pour la caractérisation des registres de langue (TREMoLo : a Multi-Label Corpus of French Tweets for Language Register Characterization)
Jade Mekki
|
Delphine Battistelli
|
Nicolas Béchet
|
Gwénolé Lecorvé
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Des registres tels que familier, courant et soutenu sont un phénomène immédiatement perceptible par tout locuteur d’une langue. Ils restent encore peu étudiés en traitement des langues (TAL), en particulier en dehors de l’anglais. Cet article présente un large corpus de tweets en français annotés en registres de langue. L’annotation intègre des marqueurs propres à ce type de textes (tels que les émoticônes ou les hashtags) et habituellement évincés dans les travaux en TAL. À partir d’une graine annotée manuellement en proportion d’appartenance aux registres, un classifieur de type CamemBERT est appris et appliqué sur un large ensemble de tweets. Le corpus annoté en résultant compte 228 505 tweets pour un total de 6 millions de mots. Des premières analyses statistiques sont menées et permettent de conclure à la qualité du corpus présenté. Le corpus ainsi que son guide d’annotation sont mis à la disposition de la communauté scientifique.
2020
pdf
abs
Age Recommendation for Texts
Alexis Blandin
|
Gwénolé Lecorvé
|
Delphine Battistelli
|
Aline Étienne
Proceedings of the Twelfth Language Resources and Evaluation Conference
The understanding of a text by a reader or listener is conditioned by the adequacy of the text’s characteristics with the person’s capacities and knowledge. This adequacy is critical in the case of a child since her/his cognitive and linguistic skills are still under development. Hence, in this paper, we present and study an original natural language processing (NLP) task which consists in predicting the age from which a text can be understood by someone. To do so, this paper first exhibits features derived from the psycholinguistic domain, as well as some coming from related NLP tasks. Then, we propose a set of neural network models and compare them on a dataset of French texts dedicated to young or adult audiences. To circumvent the lack of data, we study the idea to predict ages at the sentence level. The experiments first show that the sentence-based age recommendations can be efficiently merged to predict text-based recommendations. Then, we also demonstrate that the age predictions returned by our best model are better than those provided by psycholinguists. Finally, the paper investigates the impact of the various features used in these results.
pdf
abs
Recommandation d’âge pour des textes (Age recommendation for texts)
Alexis Blandin
|
Gwénolé Lecorvé
|
Delphine Battistelli
|
Aline Étienne
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles
Cet article étudie une première tentative pour prédire une recommandation d’âge estimant à partir de quand un enfant pourrait comprendre un texte donné. À ce titre, nous présentons d’abord des descripteurs issus de divers domaines scientifiques, puis proposons différentes architectures de réseaux de neurones et les comparons sur un ensemble de données textuelles en français, dédiées à des publics jeune ou adulte. Pour contourner la faible quantité de données de ce type, nous étudions l’idée de prédire les âges au niveau de la phrase. Les expériences montrent que cette hypothèse, quoique forte, conduit d’ores et déjà à de bons résultats, meilleurs que ceux fournis par des experts psycholinguistes, y compris lorsque les phrases isolées sont remplacées par textes complets.
pdf
abs
L’expression des émotions dans les textes pour enfants : constitution d’un corpus annoté (Expressing emotions in texts for children: constitution of an annotated corpus)
Aline Étienne
|
Delphine Battistelli
|
Gwénolé Lecorvé
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles
Cet article présente une typologie de divers modes d’expression linguistique des émotions, le schéma d’annotation sous Glozz qui implémente cette typologie et un corpus de textes journalistiques pour enfants annoté à l’aide de ce schéma. Ces travaux préliminaires s’insèrent dans le contexte d’une étude relative au développement des capacités langagières des enfants, en particulier de leur capacité à comprendre un texte selon des critères émotionnels.
pdf
abs
Mama/Papa, Is this Text for Me?
Rashedur Rahman
|
Gwénolé Lecorvé
|
Aline Étienne
|
Delphine Battistelli
|
Nicolas Béchet
|
Jonathan Chevelu
Proceedings of the 28th International Conference on Computational Linguistics
Children have less linguistic skills than adults, which makes it more difficult for them to understand some texts, for instance when browsing the Internet. In this context, we present a novel method which predicts the minimal age from which a text can be understood. This method analyses each sentence of a text using a recurrent neural network, and then aggregates this information to provide the text-level prediction. Different approaches are proposed and compared to baseline models, at sentence and text levels. Experiments are carried out on a corpus of 1, 500 texts and 160K sentences. Our best model, based on LSTMs, outperforms state-of-the-art results and achieves mean absolute errors of 1.86 and 2.28, at sentence and text levels, respectively.
2018
pdf
abs
Construction conjointe d’un corpus et d’un classifieur pour les registres de langue en français (Joint building of a corpus and a classifier for language registers in French)
Gwénolé Lecorvé
|
Hugo Ayats
|
Fournier Benoît
|
Jade Mekki
|
Jonathan Chevelu
|
Delphine Battistelli
|
Nicolas Béchet
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
Les registres de langue sont un trait stylistique marquant dans l’appréciation d’un texte ou d’un discours. Cependant, il sont encore peu étudiés en traitement automatique des langues. Dans cet article, nous présentons une approche semi-supervisée permettant la construction conjointe d’un corpus de textes étiquetés en registres et d’un classifieur associé. Cette approche s’appuie sur un ensemble initial et restreint de données expertes. Via une collecte automatique et massive de pages web, l’approche procède par itérations en alternant l’apprentissage d’un classifieur intermédiaire et l’annotation de nouveaux textes pour augmenter le corpus étiqueté. Nous appliquons cette approche aux registres familier, courant et soutenu. À l’issue du processus de construction, le corpus étiqueté regroupe 800 000 textes et le classifieur, un réseau de neurones, présente un taux de bonne classification de 87 %.
pdf
abs
Identification de descripteurs pour la caractérisation de registres (Feature identification for register characterization)
Jade Mekki
|
Delphine Battistelli
|
Gwénolé Lecorvé
|
Nicolas Béchet
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
L’article présente une étude des descripteurs linguistiques pour la caractérisation d’un texte selon son registre de langue (familier, courant, soutenu). Cette étude a pour but de poser un premier jalon pour des tâches futures sur le sujet (classification, extraction de motifs discriminants). À partir d’un état de l’art mené sur la notion de registre dans la littérature linguistique et sociolinguistique, nous avons identifié une liste de 72 descripteurs pertinents. Dans cet article, nous présentons les 30 premiers que nous avons pu valider sur un corpus de textes français de registres distincts.
2016
pdf
abs
Covering various Needs in Temporal Annotation: a Proposal of Extension of ISO TimeML that Preserves Upward Compatibility
Anaïs Lefeuvre-Halftermeyer
|
Jean-Yves Antoine
|
Alain Couillault
|
Emmanuel Schang
|
Lotfi Abouda
|
Agata Savary
|
Denis Maurel
|
Iris Eshkol
|
Delphine Battistelli
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)
This paper reports a critical analysis of the ISO TimeML standard, in the light of several experiences of temporal annotation that were conducted on spoken French. It shows that the norm suffers from weaknesses that should be corrected to fit a larger variety of needs inNLP and in corpus linguistics. We present our proposition of some improvements of the norm before it will be revised by the ISO Committee in 2017. These modifications concern mainly (1) Enrichments of well identified features of the norm: temporal function of TIMEX time expressions, additional types for TLINK temporal relations; (2) Deeper modifications concerning the units or features annotated: clarification between time and tense for EVENT units, coherence of representation between temporal signals (the SIGNAL unit) and TIMEX modifiers (the MOD feature); (3) A recommendation to perform temporal annotation on top of a syntactic (rather than lexical) layer (temporal annotation on a treebank).
pdf
abs
Fouille de motifs et CRF pour la reconnaissance de symptômes dans les textes biomédicaux (Pattern mining and CRF for symptoms recognition in biomedical texts)
Pierre Holat
|
Nadi Tomeh
|
Thierry Charnois
|
Delphine Battistelli
|
Marie-Christine Jaulent
|
Jean-Philippe Métivier
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)
Dans cet article, nous nous intéressons à l’extraction d’entités médicales de type symptôme dans les textes biomédicaux. Cette tâche est peu explorée dans la littérature et il n’existe pas à notre connaissance de corpus annoté pour entraîner un modèle d’apprentissage. Nous proposons deux approches faiblement supervisées pour extraire ces entités. Une première est fondée sur la fouille de motifs et introduit une nouvelle contrainte de similarité sémantique. La seconde formule la tache comme une tache d’étiquetage de séquences en utilisant les CRF (champs conditionnels aléatoires). Nous décrivons les expérimentations menées qui montrent que les deux approches sont complémentaires en termes d’évaluation quantitative (rappel et précision). Nous montrons en outre que leur combinaison améliore sensiblement les résultats.
pdf
abs
Appariement d’articles en ligne et de vidéos : stratégies de sélection et méthodes d’évaluation (Pairing On-line News Articles to Videos : Selection Strategies and Evaluation Methods)
Adèle Désoyer
|
Delphine Battistelli
|
Jean-Luc Minel
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)
Dans cet article, nous proposons une méthode d’appariement de contenus d’actualité multimédias, considérant les exigences à la fois sémantiques et temporelles du besoin d’information. La pertinence d’une vidéo pour un article de presse est mesurée par deux indices, l’un saisissant la similarité de leurs contenus, l’autre la cohérence de leurs dates d’édition. Nous présentons également une méthodologie d’évaluation s’affranchissant des standards comparant les résultats du système à des résultats de référence, en soumettant les paires de documents proposées automatiquement à un panel d’utilisateurs chargé de juger de leur pertinence.
2014
pdf
Symptom extraction issue
Laure Martin
|
Delphine Battistelli
|
Thierry Charnois
Proceedings of BioNLP 2014
2013
pdf
bib
Analyzing modal and enunciative discursive heterogeneity: how to combine semantic resources and a syntactic parser analysis
Delphine Battistelli
|
Marine Damiani
Proceedings of the IWCS 2013 Workshop on Annotation of Modal Meanings in Natural Language (WAMM)
pdf
Enunciative and modal variations in newswire texts in French: From guideline to automatic annotation
Marine Damiani
|
Delphine Battistelli
Proceedings of the 7th Linguistic Annotation Workshop and Interoperability with Discourse
2011
pdf
abs
Recherche d’information et temps linguistique : une heuristique pour calculer la pertinence des expressions calendaires (Information retrieval and linguistic time: a heuristic to calculate the relevance of calendar expressions)
Charles Teissèdre
|
Delphine Battistelli
|
Jean-Luc Minel
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
A rebours de bon nombre d’applications actuelles offrant des services de recherche d’information selon des critères temporels - applications qui reposent, à y regarder de près, sur une approche consistant à filtrer les résultats en fonction de leur inclusion dans une fenêtre de temps, nous souhaitons illustrer dans cet article l’intérêt d’un service s’appuyant sur un calcul de similarité entre des expressions adverbiales calendaires. Nous décrivons une heuristique pour mesurer la pertinence d’un fragment de texte en prenant en compte la sémantique des expressions calendaires qui y sont présentes. A travers la mise en oeuvre d’un système de recherche d’information, nous montrons comment il est possible de tirer profit de l’indexation d’expressions calendaires présentes dans les textes en définissant des scores de pertinence par rapport à une requête. L’objectif est de faciliter la recherche d’information en offrant la possibilité de croiser des critères de recherche thématique avec des critères temporels.
2010
pdf
abs
Resources for Calendar Expressions Semantic Tagging and Temporal Navigation through Texts
Charles Teissèdre
|
Delphine Battistelli
|
Jean-Luc Minel
Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10)
The linguistic resources presented in this paper are designed for the recognition and semantic tagging of calendar expressions in French. While existing resources generally put the emphasis on describing calendar bases pointed out by calendar expressions (which are considered as named entities), our approach tries to explicit how references to calendar are linguistically built up, taking into account not only the calendar bases but as well the prepositions and units that operate on them, as they provide valuable information on how texts refer to the calendar. The modelling of these expressions led us to consider calendar expressions as a conjunction of operators interacting with temporal references. Though the resources aim to be generic and easily reusable, we illustrate the interest of our approach by using the resources output to feed a text navigation tool that is currently being improved, in order to offer users a way of temporally progressing or navigating in texts.
2008
pdf
Representing and Visualizing Calendar Expressions in Texts
Delphine Battistelli
|
Javier Couto
|
Jean-Luc Minel
|
Sylviane R. Schwer
Semantics in Text Processing. STEP 2008 Conference Proceedings
pdf
abs
Représentation algébrique des expressions calendaires et vue calendaire d’un texte
Delphine Battistelli
|
Javier Couto
|
Jean-Luc Minel
|
Sylviane R. Schwer
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Cet article aborde l’étude des expressions temporelles qui font référence directement à des unités de temps relatives aux divisions courantes des calendriers, que nous qualifions d’expressions calendaires (EC). Nous proposons une modélisation de ces expressions en définissant une algèbre d’opérateurs qui sont liés aux classes de marqueurs linguistiques qui apparaissent dans les EC. A partir de notre modélisation, une vue calendaire est construite dans la plate-forme de visualisation et navigation textuelle NaviTexte, visant le support à la lecture de textes. Enfin, nous concluons sur les perspectives offertes par le développement d’une première application de navigation temporelle.
2007
pdf
bib
abs
Représenter la dynamique énonciative et modale de textes
Delphine Battistelli
|
Marie Chagnoux
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Nous proposons d’exposer ici une méthodologie d’analyse et de représentation d’une des composantes de la structuration des textes, celle liée à la notion de prise en charge énonciative. Nous mettons l’accent sur la structure hiérarchisée des segments textuels qui en résulte ; nous la représentons d’une part sous forme d’arbre et d’autre part sous forme de graphe. Ce dernier permet d’appréhender la dynamique énonciative et modale de textes comme un cheminement qui s’opère entre différents niveaux de discours dans un texte au fur et à mesure de sa lecture syntagmatique.
2006
pdf
bib
Représentation des expressions calendaires dans les textes : vers une application à la lecture assistée de biographies [Representation of calendar expressions in texts: towards an application to assisted reading of biographies]
Delphine Battistelli
|
Jean-Luc Minel
|
Sylviane R. Schwer
Traitement Automatique des Langues, Volume 47, Numéro 3 : Varia [Varia]
2004
pdf
abs
Temporalité linguistique et S-Langages
Delphine Battistelli
|
Jean-Luc Minel
|
Etienne Picard
|
Sylviane R. Schwer
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Après un rappel de la problématique de l’ordonnancement temporel dans un texte, nous décrivons les S-langages qui offrent une représentation unifiée des relations temporelles et une opération (la jointure) permettant de calculer les combinaisons entre celles-ci.
2001
pdf
bib
abs
Représenter le temps en langue dans le formalisme des graphes conceptuels une approche basée sur les schèmes sémantico-cognitifs
Tassadit Amghar
|
Delphine Battistelli
|
Thierry Charnois
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
L’objectif de notre travail est de construire une représentation sémantique d’un corpus de textes français au sein des graphes conceptuels simples. Notre conceptualisation est fondée sur les Schèmes Sémantico-Cognitifs et la théorie aspecto-temporelle introduits par J. P. Desclés. Un texte est représenté par deux structures. La première modélise la représention semanticocognitive des propositions du texte, et la seconde le diagramme temporel exprimant les contraintes temporelles entre les différentes situations décrites dans le texte. La prise en compte de ces deux structures et des liens qu’elles entretiennent nous a amenés à modifier le modèle des graphes conceptuels simples et à envisager les modes d’interaction entre temps, aspect (grammatical) et significations des lexèmes verbaux.