2022
pdf
abs
Filtrage et régularisation pour améliorer la plausibilité des poids d’attention dans la tâche d’inférence en langue naturelle (Filtering and regularization to improve the plausibility of attention weights in NLI)
Duc Hau Nguyen
|
Guillaume Gravier
|
Pascale Sébillot
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Nous étudions la plausibilité d’un mécanisme d’attention pour une tâche d’inférence de phrases (entailment), c’est-à-dire sa capacité à fournir une explication plausible pour un humain de la relation entre deux phrases. En s’appuyant sur le corpus Explanation-Augmented Standford Natural Language Inference, il a été montré que les poids d’attention sont peu plausibles en pratique et tendent à ne pas se concentrer sur les tokens importants. Nous étudions ici différentes approches pour rendre les poids d’attention plus plausibles, en nous appuyant sur des masques issus d’une analyse morphosyntaxique ou sur une régularisation pour forcer la parcimonie. Nous montrons que ces stratégies permettent d’améliorer sensiblement la plausibilité des poids d’attention et s’avèrent plus performantes que les approches par carte de saillance.
pdf
abs
Une étude statistique des plongements dans les modèles transformers pour le français (An empirical statistical study of embeddings in French transformers)
Loïc Fosse
|
Duc-Hau Nguyen
|
Pascale Sébillot
|
Guillaume Gravier
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Nous étudions les propriétés statistiques des plongements dans les modèles transformers pour le français. Nous nous appuyons sur une analyse de la variance, des similarités cosinus intra-phrase et du rang effectif des plongements aux différents niveaux d’un transformer, pour des modèles pré-entraînés et des modèles adaptés à la classification de textes. Nous montrons que les modèles FlauBERT et CamemBERT pré-entraînés ont des comportements très différents même si les deux ont une tendance à générer des représentations anisotropiques, c’est-à-dire se concentrant dans un cône au sein de l’espace des plongements, comme observé pour l’anglais. L’adaptation à la classification de textes modifie le comportement des modèles, notamment dans les dernières couches, et procure une tendance forte à l’alignement des plongements, réduisant également la dimension effective de l’espace au final. Nous mettons également en évidence un lien entre convergence des plongements au sein d’une phrase et classification de texte, lien dont la nature reste difficile à appréhender.
2021
pdf
abs
Active Learning for Interactive Relation Extraction in a French Newspaper’s Articles
Cyrielle Mallart
|
Michel Le Nouy
|
Guillaume Gravier
|
Pascale Sébillot
Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2021)
Relation extraction is a subtask of natural langage processing that has seen many improvements in recent years, with the advent of complex pre-trained architectures. Many of these state-of-the-art approaches are tested against benchmarks with labelled sentences containing tagged entities, and require important pre-training and fine-tuning on task-specific data. However, in a real use-case scenario such as in a newspaper company mostly dedicated to local information, relations are of varied, highly specific type, with virtually no annotated data for such relations, and many entities co-occur in a sentence without being related. We question the use of supervised state-of-the-art models in such a context, where resources such as time, computing power and human annotators are limited. To adapt to these constraints, we experiment with an active-learning based relation extraction pipeline, consisting of a binary LSTM-based lightweight model for detecting the relations that do exist, and a state-of-the-art model for relation classification. We compare several choices for classification models in this scenario, from basic word embedding averaging, to graph neural networks and Bert-based ones, as well as several active learning acquisition strategies, in order to find the most cost-efficient yet accurate approach in our French largest daily newspaper company’s use case.
2020
pdf
abs
Relation, es-tu là ? Détection de relations par LSTM pour améliorer l’extraction de relations (Relation, are you there ? LSTM-based relation detection to improve knowledge extraction )
Cyrielle Mallart
|
Michel Le Nouy
|
Guillaume Gravier
|
Pascale Sébillot
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles
De nombreuses méthodes d’extraction et de classification de relations ont été proposées et testées sur des données de référence. Cependant, dans des données réelles, le nombre de relations potentielles est énorme et les heuristiques souvent utilisées pour distinguer de vraies relations de co-occurrences fortuites ne détectent pas les signaux faibles pourtant importants. Dans cet article, nous étudions l’apport d’un modèle de détection de relations, identifiant si un couple d’entités dans une phrase exprime ou non une relation, en tant qu’étape préliminaire à la classification des relations. Notre modèle s’appuie sur le plus court chemin de dépendances entre deux entités, modélisé par un LSTM et combiné avec les types des entités. Sur la tâche de détection de relations, nous obtenons de meilleurs résultats qu’un modèle état de l’art pour la classification de relations, avec une robustesse accrue aux relations inédites. Nous montrons aussi qu’une détection binaire en amont d’un modèle de classification améliore significativement ce dernier.
2018
bib
Traitement Automatique des Langues 2018 Volume 59 Numéro 1
Emmanuel Morin
|
Sophie Rosset
|
Pascale Sébillot
Traitement Automatique des Langues 2018 Volume 59 Numéro 1
pdf
bib
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
Pascale Sébillot
|
Vincent Claveau
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
pdf
bib
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
Pascale Sébillot
|
Vincent Claveau
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
pdf
bib
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
Pascale Sébillot
|
Vincent Claveau
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
pdf
bib
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
Pascale Sébillot
|
Vincent Claveau
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
pdf
bib
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
Pascale Sébillot
|
Vincent Claveau
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
2017
pdf
abs
Language-based Construction of Explorable News Graphs for Journalists
Rémi Bois
|
Guillaume Gravier
|
Eric Jamet
|
Emmanuel Morin
|
Pascale Sébillot
|
Maxime Robert
Proceedings of the 2017 EMNLP Workshop: Natural Language Processing meets Journalism
Faced with ever-growing news archives, media professionals are in need of advanced tools to explore the information surrounding specific events. This problem is most commonly answered by browsing news datasets, going from article to article and viewing unaltered original content. In this article, we introduce an efficient way to generate links between news items, allowing such browsing through an easily explorable graph, and enrich this graph by automatically typing links in order to inform the user on the nature of the relation between two news pieces. User evaluations are conducted on real world data with journalists in order to assess for the interest of both the graph representation and link typing in a press reviewing task, showing the system to be of significant help for their work.
pdf
bib
abs
Ajout automatique de disfluences pour la synthèse de la parole spontanée : formalisation et preuve de concept (Automatic disfluency insertion towards spontaneous TTS : formalization and proof of concept)
Raheel Qader
|
Gwénolé Lecorvé
|
Damien Lolive
|
Pascale Sébillot
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 - Articles longs
Cet article présente un travail exploratoire sur l’ajout automatique de disfluences, c’est-à-dire de pauses, de répétitions et de révisions, dans les énoncés en entrée d’un système de synthèse de la parole. L’objectif est de conférer aux signaux ainsi synthétisés un caractère plus spontané et expressif. Pour cela, nous présentons une formalisation novatrice du processus de production de disfluences à travers un mécanisme de composition de ces disfluences. Cette formalisation se distingue notamment des approches visant la détection ou le nettoyage de disfluences dans des transcriptions, ou de celles en synthèse de la parole qui ne s’intéressent qu’au seul ajout de pauses. Nous présentons une première implémentation de notre processus fondée sur des champs aléatoires conditionnels et des modèles de langage, puis conduisons des évaluations objectives et perceptives. Celles-ci nous permettent de conclure à la fonctionnalité de notre proposition et d’en discuter les pistes principales d’amélioration.
2016
pdf
abs
Adaptation de la prononciation pour la synthèse de la parole spontanée en utilisant des informations linguistiques (Pronunciation adaptation for spontaneous speech synthesis using linguistic information)
Raheel Qader
|
Gwénolé Lecorvé
|
Damien Lolive
|
Pascale Sébillot
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
Cet article présente une nouvelle méthode d’adaptation de la prononciation dont le but est de reproduire le style spontané. Il s’agit d’une tâche-clé en synthèse de la parole car elle permet d’apporter de l’expressivité aux signaux produits, ouvrant ainsi la voie à de nouvelles applications. La force de la méthode proposée est de ne s’appuyer que sur des informations linguistiques et de considérer un cadre probabiliste pour ce faire, précisément les champs aléatoires conditionnels. Dans cet article, nous étudions tout d’abord la pertinence d’un ensemble d’informations pour l’adaptation, puis nous combinons les informations les plus pertinentes lors d’expériences finales. Les évaluations de la méthode sur un corpus de parole conversationnelle en anglais montrent que les prononciations adaptées reflètent significativement mieux un style spontané que les prononciations canoniques.
pdf
abs
Évaluation dune nouvelle structuration thématique hiérarchique des textes dans un cadre de résumé automatique et de détection d’ancres au sein de vidéos (Evaluation of a novel hierarchical thematic structuring of texts in the framework of text summarization and anchor detection for video hyperlinking )
Anca Simon
|
Guillaume Gravier
|
Pascale Sébillot
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)
automatique et de détection d’ancres au sein de vidéos Anca Simon1 Guillaume Gravier2 Pascale Sébillot3 (1) Université de Rennes 1, IRISA & INRIA Rennes, Campus de Beaulieu, 35042 Rennes, France (2) CNRS, IRISA & INRIA Rennes, Campus de Beaulieu, 35042 Rennes, France (3) INSA, IRISA & INRIA Rennes, Campus de Beaulieu, 35042 Rennes, France anca.simon@irisa.fr, guillaume.gravier@irisa.fr, pascale.sebillot@irisa.fr R ÉSUMÉ Dans cet article, nous évaluons, à travers son intérêt pour le résumé automatique et la détection d’ancres dans des vidéos, le potentiel d’une nouvelle structure thématique extraite de données textuelles, composée d’une hiérarchie de fragments thématiquement focalisés. Cette structure est produite par un algorithme exploitant les distributions temporelles d’apparition des mots dans les textes en se fondant sur une analyse de salves lexicales. La hiérarchie obtenue a pour objet de filtrer le contenu non crucial et de ne conserver que l’information saillante des textes, à différents niveaux de détail. Nous montrons qu’elle permet d’améliorer la production de résumés ou au moins de maintenir les résultats de l’état de l’art, tandis que pour la détection d’ancres, elle nous conduit à la meilleure précision dans le contexte de la tâche Search and Anchoring in Video Archives à MediaEval. Les expériences sont réalisées sur du texte écrit et sur un corpus de transcriptions automatiques d’émissions de télévision.
2015
pdf
abs
Vers une typologie de liens entre contenus journalistiques
Remi Bois
|
Guillaume Gravier
|
Emmanuel Morin
|
Pascale Sébillot
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Nous présentons une typologie de liens pour un corpus multimédia ancré dans le domaine journalistique. Bien que plusieurs typologies aient été créées et utilisées par la communauté, aucune ne permet de répondre aux enjeux de taille et de variété soulevés par l’utilisation d’un corpus large comprenant des textes, des vidéos, ou des émissions radiophoniques. Nous proposons donc une nouvelle typologie, première étape visant à la création et la catégorisation automatique de liens entre des fragments de documents afin de proposer de nouveaux modes de navigation au sein d’un grand corpus. Plusieurs exemples d’instanciation de la typologie sont présentés afin d’illustrer son intérêt.
pdf
Hierarchical Topic Structuring: From Dense Segmentation to Topically Focused Fragments via Burst Analysis
Anca-Roxana Simon
|
Pascale Sébillot
|
Guillaume Gravier
Proceedings of the International Conference Recent Advances in Natural Language Processing
2013
pdf
Leveraging Lexical Cohesion and Disruption for Topic Segmentation
Anca-Roxana Şimon
|
Guillaume Gravier
|
Pascale Sébillot
Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing
pdf
A probabilistic segment model combining lexical cohesion and disruption for topic segmentation (Un modèle segmental probabiliste combinant cohésion lexicale et rupture lexicale pour la segmentation thématique) [in French]
Anca Simon
|
Guillaume Gravier
|
Pascale Sébillot
Proceedings of TALN 2013 (Volume 1: Long Papers)
2011
pdf
abs
Utilisation de critères linguistiques de surface pour l’extraction de relation dans les textes bio-médicaux (Using shallow linguistic features for relation extraction in bio-medical texts)
Ali Reza Ebadat
|
Vincent Claveau
|
Pascale Sébillot
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Dans cet article, nous proposons de modéliser la tâche d’extraction de relations à partir de corpus textuels comme un problème de classification. Nous montrons que, dans ce cadre, des représentations fondées sur des informations linguistiques de surface sont suffisantes pour que des algorithmes d’apprentissage artificiel standards les exploitant rivalisent avec les meilleurs systèmes d’extraction de relations reposant sur des connaissances issues d’analyses profondes (analyses syntaxiques ou sémantiques). Nous montrons également qu’en prenant davantage en compte les spécificités de la tâche d’extraction à réaliser et des données disponibles, il est possible d’obtenir des méthodes encore plus efficaces tout en exploitant ces informations simples. La technique originale à base d’apprentissage « paresseux » et de modèles de langue que nous évaluons en extraction d’interactions géniques sur les données du challenge LLL2005 dépasse les résultats de l’état de l’art.
2010
pdf
abs
Utilisation de relations sémantiques pour améliorer la segmentation thématique de documents télévisuels
Camille Guinaudeau
|
Guillaume Gravier
|
Pascale Sébillot
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Les méthodes de segmentation thématique exploitant une mesure de la cohésion lexicale peuvent être appliquées telles quelles à des transcriptions automatiques de programmes télévisuels. Cependant, elles sont moins efficaces dans ce contexte, ne prenant en compte ni les particularités des émissions TV, ni celles des transcriptions. Nous étudions ici l’apport de relations sémantiques pour rendre les techniques de segmentation thématique plus robustes. Nous proposons une méthode pour exploiter ces relations dans une mesure de la cohésion lexicale et montrons qu’elles permettent d’augmenter la F1-mesure de +1.97 et +11.83 sur deux corpus composés respectivement de 40h de journaux télévisés et de 40h d’émissions de reportage. Ces améliorations démontrent que les relations sémantiques peuvent rendre les méthodes de segmentation moins sensibles aux erreurs de transcription et au manque de répétitions constaté dans certaines émissions télévisées.
2008
pdf
abs
Un modèle multi-sources pour la segmentation en sujets de journaux radiophoniques
Stéphane Huet
|
Guillaume Gravier
|
Pascale Sébillot
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Nous présentons une méthode de segmentation de journaux radiophoniques en sujets, basée sur la prise en compte d’indices lexicaux, syntaxiques et acoustiques. Partant d’un modèle statistique existant de segmentation thématique, exploitant la notion de cohésion lexicale, nous étendons le formalisme pour y inclure des informations d’ordre syntaxique et acoustique. Les résultats expérimentaux montrent que le seul modèle de cohésion lexicale ne suffit pas pour le type de documents étudié en raison de la taille variable des segments et de l’absence d’un lien direct entre segment et thème. L’utilisation d’informations syntaxiques et acoustiques permet une amélioration substantielle de la segmentation obtenue.
pdf
abs
On the Use of Web Resources and Natural Language Processing Techniques to Improve Automatic Speech Recognition Systems
Gwénolé Lecorvé
|
Guillaume Gravier
|
Pascale Sébillot
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)
Language models used in current automatic speech recognition systems are trained on general-purpose corpora and are therefore not relevant to transcribe spoken documents dealing with successive precise topics, such as long multimedia streams, frequently tacking reportages and debates. To overcome this problem, this paper shows that Web resources and natural language processing techniques can be effective to automatically adapt the baseline language model of an automatic speech recognition system to any encountered topic. More precisely, we detail how to characterize the topic of transcription segment and how to collect Web pages from which a topic-specific language model can be trained. Then, an adapted language model is obtained by combining the topic-specific language model with the general-purpose language model. Finally, new transcriptions are generated using the adapted language model and are compared with transcriptions previously obtained with the baseline language model. Experiments show that our topic adaptation technique leads to significant transcription quality gains.
pdf
abs
Morphosyntactic Resources for Automatic Speech Recognition
Stéphane Huet
|
Guillaume Gravier
|
Pascale Sébillot
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)
Texts generated by automatic speech recognition (ASR) systems have some specificities, related to the idiosyncrasies of oral productions or the principles of ASR systems, that make them more difficult to exploit than more conventional natural language written texts. This paper aims at studying the interest of morphosyntactic information as a useful resource for ASR. We show the ability of automatic methods to tag outputs of ASR systems, by obtaining a tag accuracy similar for automatic transcriptions to the 95-98 % usually reported for written texts, such as newspapers. We also demonstrate experimentally that tagging is useful to improve the quality of transcriptions by using morphosyntactic information in a post-processing stage of speech decoding. Indeed, we obtain a significant decrease of the word error rate with experiments done on French broadcast news from the ESTER corpus; we also notice an improvement of the sentence error rate and observe that a significant number of agreement errors are corrected.
2006
pdf
abs
Mise au jour semi-automatique de nuances sémantiques entre mots de sens proches
Mathias Rossignol
|
Pascale Sébillot
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
L’acquisition automatique sur corpus d’informations lexicales sémantiques donne une place importante à la constitution de classes sémantiques rassemblant des mots de sens proches. Or, l’intérêt pratique de celles-ci reste limité en l’absence d’information sur les distinctions individualisant les sens des mots qu’elles rassemblent. Nous présentons dans cet article un premier système permettant de mettre au jour, de manière semi-automatique et à partir des seules données textuelles rassemblées dans un corpus, des éléments de distinction sémantique fine entre mots appartenant à une même classe, atteignant ainsi un degré de définition du sens encore inédit en acquisition automatique d’informations sémantiques lexicales. La technique mise au point regroupe, en s’appuyant sur l’étude de grands voisinages autour des occurrences des mots comparés, des paires de mots distingués par des nuances similaires. Cette approche présente la faiblesse de ne permettre qu’une représentation implicite des nuances découvertes : les listes de paires de mots rapprochées doivent être interprétées afin de « comprendre » l’élément de distinction commun. En revanche, elle permet une automatisation importante du processus de recherche de nuances, suffisante pour assurer que le travail humain de validation des résultats n’introduise dans ceux-ci de biais interprétatif trop important.
2004
pdf
abs
Extension de requêtes par lien sémantique nom-verbe acquis sur corpus
Vincent Claveau
|
Pascale Sébillot
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
En recherche d’information, savoir reformuler une idée par des termes différents est une des clefs pour l’amélioration des performances des systèmes de recherche d’information (SRI) existants. L’un des moyens pour résoudre ce problème est d’utiliser des ressources sémantiques spécialisées et adaptées à la base documentaire sur laquelle les recherches sont faites. Nous proposons dans cet article de montrer que les liens sémantiques entre noms et verbes appelés liens qualia, définis dans le modèle du Lexique génératif (Pustejovsky, 1995), peuvent effectivement améliorer les résultats des SRI. Pour cela, nous extrayons automatiquement des couples nom-verbe en relation qualia de la base documentaire à l’aide du système d’acquisition ASARES (Claveau, 2003a). Ces couples sont ensuite utilisés pour étendre les requêtes d’un système de recherche. Nous montrons, à l’aide des données de la campagne d’évaluation Amaryllis, que cette extension permet effectivement d’obtenir des réponses plus pertinentes, et plus particulièrement pour les premiers documents retournés à l’utilisateur.
pdf
From efficiency to portability: acquisition of semantic relations by semi-supervised machine learning
Vincent Claveau
|
Pascale Sébillot
COLING 2004: Proceedings of the 20th International Conference on Computational Linguistics
2002
pdf
Acquisition of Qualia Elements from Corpora - Evaluation of a Symbolic Learning Method
Pierrette Bouillon
|
Vincent Claveau
|
Cécile Fabre
|
Pascale Sébillot
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)
2000
pdf
Inductive Logic Programming for Corpus-Based Acquisition of Semantic Lexicons
Pascale Sébillot
|
Pierrette Bouillon
|
Cecile Fabre
Fourth Conference on Computational Natural Language Learning and the Second Learning Language in Logic Workshop