Vincent Claveau


2022

pdf
PPL-MCTS: Constrained Textual Generation Through Discriminator-Guided MCTS Decoding
Antoine Chaffin | Vincent Claveau | Ewa Kijak
Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies

Large language models (LM) based on Transformers allow to generate plausible long texts. In this paper, we explore how this generation can be further controlled at decoding time to satisfy certain constraints (e.g. being non-toxic, conveying certain emotions, using a specific writing style, etc.) without fine-tuning the LM.Precisely, we formalize constrained generation as a tree exploration process guided by a discriminator that indicates how well the associated sequence respects the constraint. This approach, in addition to being easier and cheaper to train than fine-tuning the LM, allows to apply the constraint more finely and dynamically.We propose several original methods to search this generation tree, notably the Monte Carlo Tree Search (MCTS) which provides theoretical guarantees on the search efficiency, but also simpler methods based on re-ranking a pool of diverse sequences using the discriminator scores. These methods are evaluated, with automatic and human-based metrics, on two types of constraints and languages: review polarity and emotion control in French and English. We show that discriminator-guided MCTS decoding achieves state-of-the-art results without having to tune the language model, in both tasks and languages. We also demonstrate that other proposed decoding methods based on re-ranking can be really effective when diversity among the generated propositions is encouraged.

pdf bib
Choisir le bon co-équipier pour la génération coopérative de texte (Choosing The Right Teammate For Cooperative Text Generation)
Antoine Chaffin | Vincent Claveau | Ewa Kijak | Sylvain Lamprier | Benjamin Piwowarski | Thomas Scialom | Jacopo Staiano
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Les modèles de langue génèrent des textes en prédisant successivement des distributions de probabilité pour les prochains tokens en fonction des tokens précédents. Pour générer des textes avec des propriétés souhaitées (par ex. être plus naturels, non toxiques ou avoir un style d’écriture spécifique), une solution — le décodage coopératif — consiste à utiliser un classifieur lors de la génération pour guider l’échantillonnage de la distribution du modèle de langue vers des textes ayant la propriété attendue. Dans cet article, nous examinons trois familles de discriminateurs (basés sur des transformers) pour cette tâche de décodage coopératif : les discriminateurs bidirectionnels, unidirectionnels (de gauche à droite) et génératifs. Nous évaluons leurs avantages et inconvénients, en explorant leur précision respective sur des tâches de classification, ainsi que leur impact sur la génération coopérative et leur coût de calcul, dans le cadre d’une stratégie de décodage état de l’art, basée sur une recherche arborescente de Monte-Carlo (MCTS). Nous fournissons également l’implémentation (batchée) utilisée pour nos expériences.

pdf
Décodage guidé par un discriminateur avec le Monte Carlo Tree Search pour la génération de texte contrainte (Discriminator-guided decoding with Monte Carlo Tree Search for constrained text generation )
Antoine Chaffin | Vincent Claveau | Ewa Kijak
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Dans cet article, nous explorons comment contrôler la génération de texte au moment du décodage pour satisfaire certaines contraintes (e.g. être non toxique, transmettre certaines émotions...), sans nécessiter de ré-entrainer le modèle de langue. Pour cela, nous formalisons la génération sous contrainte comme un processus d’exploration d’arbre guidé par un discriminateur qui indique dans quelle mesure la séquence associée respecte la contrainte. Nous proposons plusieurs méthodes originales pour explorer cet arbre de génération, notamment le Monte Carlo Tree Search (MCTS) qui fournit des garanties théoriques sur l’efficacité de la recherche. Au travers d’expériences sur 3 jeux de données et 2 langues, nous montrons que le décodage par MCTS guidé par les discriminateurs permet d’obtenir des résultats à l’état-de-l’art. Nous démontrons également que d’autres méthodes de décodage que nous proposons, basées sur le re-ordonnancement, peuvent être réellement efficaces lorsque la diversité parmi les propositions générées est encouragée.

pdf
Generating Artificial Texts as Substitution or Complement of Training Data
Vincent Claveau | Antoine Chaffin | Ewa Kijak
Proceedings of the Thirteenth Language Resources and Evaluation Conference

The quality of artificially generated texts has considerably improved with the advent of transformers. The question of using these models to generate learning data for supervised learning tasks naturally arises, especially when the original language resource cannot be distributed, or when it is small. In this article, this question is explored under 3 aspects: (i) are artificial data an efficient complement? (ii) can they replace the original data when those are not available or cannot be distributed for confidentiality reasons? (iii) can they improve the explainability of classifiers? Different experiments are carried out on classification tasks - namely sentiment analysis on product reviews and Fake News detection - using artificially generated data by fine-tuned GPT-2 models. The results show that such artificial data can be used in a certain extend but require pre-processing to significantly improve performance. We also show that bag-of-words approaches benefit the most from such data augmentation.

2021

pdf
La génération de textes artificiels en substitution ou en complément de données d’apprentissage (Generating artificial texts as substitution or complement of training data )
Vincent Claveau | Antoine Chaffin | Ewa Kijak
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

La qualité des textes générés artificiellement s’est considérablement améliorée avec l’apparition des transformers. La question d’utiliser ces modèles pour augmenter les données d’apprentissage pour des tâches d’apprentissage supervisé se pose naturellement. Dans cet article, cette question est explorée sous 3 aspects : (i) les données artificielles sont-elles un complément efficace ? (ii) peuvent-elles remplacer les données d’origines quand ces dernières ne peuvent pas être distribuées, par exemple pour des raisons de confidentialité ? (iii) peuvent-elles améliorer l’explicabilité des classifieurs ? Différentes expériences sont menées sur une tâche de classification en utilisant des données générées artificiellement en adaptant des modèles GPT-2. Les résultats montrent que les données artificielles ne sont pas encore suffisamment bonnes et nécessitent un pré-traitement pour améliorer significativement les performances. Nous montrons que les approches sac-de-mots bénéficient le plus de telles augmentations de données.

2020

pdf
Construction de plongements de concepts médicaux sans textes (Embedding medical concepts without texts)
Vincent Claveau
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

Dans le domaine médical, beaucoup d’outils du TAL reposent désormais sur des plongements de concepts issus de l’UMLS. Les approches existantes pour générer ces plongements nécessitent de grandes quantités de documents médicaux. Au contraire des ces approches, nous proposons dans cet article de nous appuyer sur les traductions en japonais, plus précisément en kanjis, disponibles dans l’UMLS pour générer ces plongements. Testée sur différents jeux d’évaluation proposés dans la littérature, notre approche, qui ne requiert donc aucun texte, donne de bons résultats comparativement à l’état-de-l’art. De plus, nous montrons qu’il est intéressant de les combiner avec les plongements – contextuels – existants.

pdf
On the Correlation of Word Embedding Evaluation Metrics
François Torregrossa | Vincent Claveau | Nihel Kooli | Guillaume Gravier | Robin Allesiardo
Proceedings of the Twelfth Language Resources and Evaluation Conference

Word embeddings intervene in a wide range of natural language processing tasks. These geometrical representations are easy to manipulate for automatic systems. Therefore, they quickly invaded all areas of language processing. While they surpass all predecessors, it is still not straightforward why and how they do so. In this article, we propose to investigate all kind of evaluation metrics on various datasets in order to discover how they correlate with each other. Those correlations lead to 1) a fast solution to select the best word embeddings among many others, 2) a new criterion that may improve the current state of static Euclidean word embeddings, and 3) a way to create a set of complementary datasets, i.e. each dataset quantifies a different aspect of word embeddings.

2019

pdf
Corpus annoté de cas cliniques en français (Annotated corpus with clinical cases in French)
Natalia Grabar | Cyril Grouin | Thierry Hamon | Vincent Claveau
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume I : Articles longs

Les corpus textuels sont utiles pour diverses applications de traitement automatique des langues (TAL) en fournissant les données nécessaires pour leur création, adaptation ou évaluation. Cependant, dans certains domaines comme le domaine médical, l’accès aux données est rendu compliqué, voire impossible, pour des raisons de confidentialité et d’éthique. Il existe néanmoins de réels besoins en corpus cliniques pour l’enseignement et la recherche. Pour répondre à ce défi, nous présentons dans cet article le corpus CAS contenant des cas cliniques de patients, réels ou fictifs, que nous avons compilés. Ces cas cliniques en français couvrent plusieurs spécialités médicales et focalisent donc sur différentes situations cliniques. Actuellement, le corpus contient 4 300 cas (environ 1,5M d’occurrences de mots). Il est accompagné d’informations (discussions des cas cliniques, mots-clés, etc.) et d’annotations que nous avons effectuées au regard des besoins de la recherche en TAL dans ce domaine. Nous présentons également les résultats de premières expériences de recherche et d’extraction d’information qui ont été effectuées avec ce corpus annoté. Ces expériences peuvent fournir une baseline à d’autres chercheurs souhaitant travailler avec les données.

pdf bib
Recherche et extraction d’information dans des cas cliniques. Présentation de la campagne d’évaluation DEFT 2019 (Information Retrieval and Information Extraction from Clinical Cases)
Natalia Grabar | Cyril Grouin | Thierry Hamon | Vincent Claveau
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Défi Fouille de Textes (atelier TALN-RECITAL)

Cet article présente la campagne d’évaluation DEFT 2019 sur l’analyse de textes cliniques rédigés en français. Le corpus se compose de cas cliniques publiés et discutés dans des articles scientifiques, et indexés par des mots-clés. Nous proposons trois tâches indépendantes : l’indexation des cas cliniques et discussions, évaluée prioritairement par la MAP (mean average precision), l’appariement entre cas cliniques et discussions, évalué au moyen d’une précision, et l’extraction d’information parmi quatre catégories (âge, genre, origine de la consultation, issue), évaluée en termes de rappel, précision et F-mesure. Nous présentons les résultats obtenus par les participants sur chaque tâche.

pdf
Speculation and Negation detection in French biomedical corpora
Clément Dalloux | Vincent Claveau | Natalia Grabar
Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2019)

In this work, we propose to address the detection of negation and speculation, and of their scope, in French biomedical documents. It has been indeed observed that they play an important role and provide crucial clues for other NLP applications. Our methods are based on CRFs and BiLSTM. We reach up to 97.21 % and 91.30 % F-measure for the detection of negation and speculation cues, respectively, using CRFs. For the computing of scope, we reach up to 90.81 % and 86.73 % F-measure on negation and speculation, respectively, using BiLSTM-CRF fed with word embeddings.

pdf
Clinical Case Reports for NLP
Cyril Grouin | Natalia Grabar | Vincent Claveau | Thierry Hamon
Proceedings of the 18th BioNLP Workshop and Shared Task

Textual data are useful for accessing expert information. Yet, since the texts are representative of distinct language uses, it is necessary to build specific corpora in order to be able to design suitable NLP tools. In some domains, such as medical domain, it may be complicated to access the representative textual data and their semantic annotations, while there exists a real need for providing efficient tools and methods. Our paper presents a corpus of clinical cases written in French, and their semantic annotations. Thus, we manually annotated a set of 717 files into four general categories (age, gender, outcome, and origin) for a total number of 2,835 annotations. The values of age, gender, and outcome are normalized. A subset with 70 files has been additionally manually annotated into 27 categories for a total number of 5,198 annotations.

2018

pdf bib
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
Pascale Sébillot | Vincent Claveau
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

pdf bib
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
Pascale Sébillot | Vincent Claveau
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

pdf
Portée de la négation : détection par apprentissage supervisé en français et portugais brésilien (Negation scope : sequence labeling by supervised learning in French and Brazilian-Portuguese)
Clément Dalloux | Vincent Claveau | Natalia Grabar | Claudia Moro
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

La détection automatique de la négation fait souvent partie des pré-requis dans les systèmes d’extraction d’information, notamment dans le domaine biomédical. Cet article présente nos contributions concernant la détection de la portée de la négation en français et portugais brésilien. Nous présentons d’une part deux corpus principalement constitués d’extraits de protocoles d’essais cliniques en français et portugais brésilien, dédiés aux critères d’inclusion de patients. Les marqueurs de négation et leurs portées y ont été annotés manuellement. Nous présentons d’autre part une approche par réseau de neurones récurrents pour extraire les portées.

pdf bib
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
Pascale Sébillot | Vincent Claveau
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

pdf bib
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
Pascale Sébillot | Vincent Claveau
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

pdf bib
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
Pascale Sébillot | Vincent Claveau
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

pdf bib
DEFT2018 : recherche d’information et analyse de sentiments dans des tweets concernant les transports en Île de France (DEFT2018 : Information Retrieval and Sentiment Analysis in Tweets about Public Transportation in Île de France Region )
Patrick Paroubek | Cyril Grouin | Patrice Bellot | Vincent Claveau | Iris Eshkol-Taravella | Amel Fraisse | Agata Jackiewicz | Jihen Karoui | Laura Monceaux | Juan-Manuel Torres-Moreno
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

Cet article présente l’édition 2018 de la campagne d’évaluation DEFT (Défi Fouille de Textes). A partir d’un corpus de tweets, quatre tâches ont été proposées : identifier les tweets sur la thématique des transports, puis parmi ces derniers, identifier la polarité (négatif, neutre, positif, mixte), identifier les marqueurs de sentiment et la cible, et enfin, annoter complètement chaque tweet en source et cible des sentiments exprimés. Douze équipes ont participé, majoritairement sur les deux premières tâches. Sur l’identification de la thématique des transports, la micro F-mesure varie de 0,827 à 0,908. Sur l’identification de la polarité globale, la micro F-mesure varie de 0,381 à 0,823.

pdf
Participation de l’IRISA à DeFT 2018 : classification et annotation d’opinion dans des tweets (IRISA at DeFT 2018: classifying and tagging opinion in tweets )
Anne-Lyse Minard | Christian Raymond | Vincent Claveau
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

Cet article décrit les systèmes développés par l’équipe LinkMedia de l’IRISA pour la campagne d’évaluation DeFT 2018 portant sur l’analyse d’opinion dans des tweets en français. L’équipe a participé à 3 des 4 tâches de la campagne : (i) classification des tweets selon s’ils concernent les transports ou non, (ii) classification des tweets selon leur polarité et (iii) annotation des marqueurs d’opinion et de l’objet à propos duquel est exprimée l’opinion. Nous avons utilisé un algorithme de boosting d’arbres de décision et des réseaux de neurones récurrents (RNN) pour traiter les tâches 1 et 2. Pour la tâche 3 nous avons expérimenté l’utilisation de réseaux de neurones récurrents associés à des CRF. Ces approches donnent des résultats proches, avec un léger avantage aux RNN, et ont permis d’être parmi les premiers classés pour chacune des tâches.

pdf
CAS: French Corpus with Clinical Cases
Natalia Grabar | Vincent Claveau | Clément Dalloux
Proceedings of the Ninth International Workshop on Health Text Mining and Information Analysis

Textual corpora are extremely important for various NLP applications as they provide information necessary for creating, setting and testing these applications and the corresponding tools. They are also crucial for designing reliable methods and reproducible results. Yet, in some areas, such as the medical area, due to confidentiality or to ethical reasons, it is complicated and even impossible to access textual data representative of those produced in these areas. We propose the CAS corpus built with clinical cases, such as they are reported in the published scientific literature in French. We describe this corpus, currently containing over 397,000 word occurrences, and the existing linguistic and semantic annotations.

pdf
IRISA at SMM4H 2018: Neural Network and Bagging for Tweet Classification
Anne-Lyse Minard | Christian Raymond | Vincent Claveau
Proceedings of the 2018 EMNLP Workshop SMM4H: The 3rd Social Media Mining for Health Applications Workshop & Shared Task

This paper describes the systems developed by IRISA to participate to the four tasks of the SMM4H 2018 challenge. For these tweet classification tasks, we adopt a common approach based on recurrent neural networks (BiLSTM). Our main contributions are the use of certain features, the use of Bagging in order to deal with unbalanced datasets, and on the automatic selection of difficult examples. These techniques allow us to reach 91.4, 46.5, 47.8, 85.0 as F1-scores for Tasks 1 to 4.

2017

pdf
Critères numériques dans les essais cliniques : annotation, détection et normalisation (Numerical criteria in clinical trials : annotation, detection and normalization)
Natalia Grabar | Vincent Claveau
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts

Les essais cliniques sont un élément fondamental pour l’évaluation de nouvelles thérapies ou techniques de diagnostic, de leur sécurité et efficacité. Ils exigent d’avoir un échantillon convenable de la population. Le défi consiste alors à recruter le nombre suffisant de participants avec des caractéristiques similaires pour garantir que les résultats des essais sont bien contrôlés et dus aux facteurs étudiés. C’est une tâche difficile, effectuée essentiellement manuellement. Comme les valeurs numériques sont une information très fréquente et importante, nous proposons un système automatique qui vise leur extraction et normalisation.

2016

pdf
Evaluating Lexical Similarity to build Sentiment Similarity
Grégoire Jadi | Vincent Claveau | Béatrice Daille | Laura Monceaux
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)

In this article, we propose to evaluate the lexical similarity information provided by word representations against several opinion resources using traditional Information Retrieval tools. Word representation have been used to build and to extend opinion resources such as lexicon, and ontology and their performance have been evaluated on sentiment analysis tasks. We question this method by measuring the correlation between the sentiment proximity provided by opinion resources and the semantic similarity provided by word representations using different correlation coefficients. We also compare the neighbors found in word representations and list of similar opinion words. Our results show that the proximity of words in state-of-the-art word representations is not very effective to build sentiment similarity.

pdf
Distributional Thesauri for Information Retrieval and vice versa
Vincent Claveau | Ewa Kijak
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)

Distributional thesauri are useful in many tasks of Natural Language Processing. In this paper, we address the problem of building and evaluating such thesauri with the help of Information Retrieval (IR) concepts. Two main contributions are proposed. First, following the work of [8], we show how IR tools and concepts can be used with success to build a thesaurus. Through several experiments and by evaluating directly the results with reference lexicons, we show that some IR models outperform state-of-the-art systems. Secondly, we use IR as an applicative framework to indirectly evaluate the generated thesaurus. Here again, this task-based evaluation validates the IR approach used to build the thesaurus. Moreover, it allows us to compare these results with those from the direct evaluation framework used in the literature. The observed differences bring these evaluation habits into question.

pdf
Extraction d’expressions-cibles de l’opinion : de l’anglais au français (Opinion Target Expression extraction : from English to French)
Grégoire Jadi | Laura Monceaux | Vincent Claveau | Béatrice Daille
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Dans cet article, nous présentons le développement d’un système d’extraction d’expressions-cibles pour l’anglais et sa transposition au français. En complément, nous avons réalisé une étude de l’efficacité des traits en anglais et en français qui tend à montrer qu’il est possible de réaliser un système d’extraction d’expressions-cibles indépendant du domaine. Pour finir, nous proposons une analyse comparative des erreurs commises par nos systèmes en anglais et français et envisageons différentes solutions à ces problèmes.

pdf
Médias traditionnels, médias sociaux : caractériser la réinformation (Traditional medias, social medias : characterizing reinformation)
Cédric Maigrot | Ewa Kijak | Vincent Claveau
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Les médias traditionnels sont de plus en plus présents sur les réseaux sociaux, mais ces sources d’informations sont confrontées à d’autres sources dites de réinformation. Ces dernières ont parfois tendance à déformer les informations relayées pour correspondre aux idéologies qu’elles souhaitent défendre, les rendant partiellement ou totalement fausses. Le but de cet article est, d’une part, de présenter un corpus que nous avons constitué à partir de groupes Facebook de ces deux types de médias. Nous présentons d’autre part quelques expériences de détection automatique des messages issus des médias de réinformation, en étudiant notamment l’influence d’attributs de surface et d’attributs portant plus spécifiquement sur le contenu de ces messages.

pdf
Direct vs. indirect evaluation of distributional thesauri
Vincent Claveau | Ewa Kijak
Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers

With the success of word embedding methods in various Natural Language Processing tasks, all the field of distributional semantics has experienced a renewed interest. Beside the famous word2vec, recent studies have presented efficient techniques to build distributional thesaurus; in particular, Claveau et al. (2014) have already shown that Information Retrieval (IR) tools and concepts can be successfully used to build a thesaurus. In this paper, we address the problem of the evaluation of such thesauri or embedding models and compare their results. Through several experiments and by evaluating directly the results with reference lexicons, we show that the recent IR-based distributional models outperform state-of-the-art systems such as word2vec. Following the work of Claveau and Kijak (2016), we use IR as an applicative framework to indirectly evaluate the generated thesaurus. Here again, this task-based evaluation validates the IR approach used to build the thesaurus. Moreover, it allows us to compare these results with those from the direct evaluation framework used in the literature. The observed differences bring these evaluation habits into question.

2015

pdf bib
Stratégies de sélection des exemples pour l’apprentissage actif avec des champs aléatoires conditionnels
Vincent Claveau | Ewa Kijak
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Beaucoup de problèmes de TAL sont désormais modélisés comme des tâches d’apprentissage supervisé. De ce fait, le coût des annotations des exemples par l’expert représente un problème important. L’apprentissage actif (active learning) apporte un cadre à ce problème, permettant de contrôler le coût d’annotation tout en maximisant, on l’espère, la performance de la tâche visée, mais repose sur le choix difficile des exemples à soumettre à l’expert. Dans cet article, nous examinons et proposons des stratégies de sélection des exemples pour le cas spécifique des champs aléatoires conditionnels (Conditional Random Fields, CRF), outil largement utilisé en TAL. Nous proposons d’une part une méthode simple corrigeant un biais de certaines méthodes de l’état de l’art. D’autre part, nous détaillons une méthode originale de sélection s’appuyant sur un critère de respect des proportions dans les jeux de données manipulés. Le bien- fondé de ces propositions est vérifié au travers de plusieurs tâches et jeux de données, incluant reconnaissance d’entités nommées, chunking, phonétisation, désambiguïsation de sens.

2014

pdf
Generating and using probabilistic morphological resources for the biomedical domain
Vincent Claveau | Ewa Kijak
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)

In most Indo-European languages, many biomedical terms are rich morphological structures composed of several constituents mainly originating from Greek or Latin. The interpretation of these compounds are keystones to access information. In this paper, we present morphological resources aiming at coping with these biomedical morphological compounds. Following previous work (Claveau et al. 2011,Claveau et al. 12), these resources are automatically built using Japanese terms in Kanjis as a pivot language and alignment techniques. We show how these alignment information can be used for segmenting compounds, attaching semantic interpretation to each part, proposing definitions (gloses) of the compounds... When possible, these tasks are compared with state-of-the-art tools, and the results show the interest of our automatically built probabilistic resources.

pdf
Exploring the neighbor graph to improve distributional thesauri (Explorer le graphe de voisinage pour améliorer les thésaurus distributionnels) [in French]
Vincent Claveau | Ewa Kijak | Olivier Ferret
Proceedings of TALN 2014 (Volume 1: Long Papers)

pdf
Improving distributional thesauri by exploring the graph of neighbors
Vincent Claveau | Ewa Kijak | Olivier Ferret
Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers

2013

pdf
IRISA participation to BioNLP-ST13: lazy-learning and information retrieval for information extraction tasks
Vincent Claveau
Proceedings of the BioNLP Shared Task 2013 Workshop

pdf
Unsupervised CRF for knowledge discovery (Découverte de connaissances dans les séquences par CRF non-supervisés) [in French]
Vincent Claveau | Abir Ncibi
Proceedings of TALN 2013 (Volume 1: Long Papers)

2012

pdf
Vectorisation, Okapi et calcul de similarité pour le TAL : pour oublier enfin le TF-IDF (Vectorization, Okapi and Computing Similarity for NLP : Say Goodbye to TF-IDF) [in French]
Vincent Claveau
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN

pdf
Annotation manuelle de matchs de foot : Oh la la la ! l’accord inter-annotateurs ! et c’est le but ! (Manual Annotation of Football Matches : Inter-annotator Agreement ! Gooooal !) [in French]
Karën Fort | Vincent Claveau
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN

pdf
Annotating Football Matches: Influence of the Source Medium on Manual Annotation
Karën Fort | Vincent Claveau
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)

In this paper, we present an annotation campaign of football (soccer) matches, from a heterogeneous text corpus of both match minutes and video commentary transcripts, in French. The data, annotations and evaluation process are detailed, and the quality of the annotated corpus is discussed. In particular, we propose a new technique to better estimate the annotator agreement when few elements of a text are to be annotated. Based on that, we show how the source medium influenced the process and the quality.

pdf
Unsupervised and Semi-Supervised Morphological Analysis for Information Retrieval in the Biomedical Domain
Vincent Claveau
Proceedings of COLING 2012

pdf
Participation de l’IRISA à DeFT2012 : recherche d’information et apprentissage pour la génération de mots-clés (IRISA participation to DeFT2012: information retrieval and machine-learning for keyword generation) [in French]
Vincent Claveau | Christian Raymond
JEP-TALN-RECITAL 2012, Workshop DEFT 2012: DÉfi Fouille de Textes (DEFT 2012 Workshop: Text Mining Challenge)

2011

pdf
Morphological Analysis of Biomedical Terminology with Analogy-Based Alignment
Vincent Claveau | Ewa Kijak
Proceedings of the International Conference Recent Advances in Natural Language Processing 2011

pdf
Utilisation de critères linguistiques de surface pour l’extraction de relation dans les textes bio-médicaux (Using shallow linguistic features for relation extraction in bio-medical texts)
Ali Reza Ebadat | Vincent Claveau | Pascale Sébillot
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Dans cet article, nous proposons de modéliser la tâche d’extraction de relations à partir de corpus textuels comme un problème de classification. Nous montrons que, dans ce cadre, des représentations fondées sur des informations linguistiques de surface sont suffisantes pour que des algorithmes d’apprentissage artificiel standards les exploitant rivalisent avec les meilleurs systèmes d’extraction de relations reposant sur des connaissances issues d’analyses profondes (analyses syntaxiques ou sémantiques). Nous montrons également qu’en prenant davantage en compte les spécificités de la tâche d’extraction à réaliser et des données disponibles, il est possible d’obtenir des méthodes encore plus efficaces tout en exploitant ces informations simples. La technique originale à base d’apprentissage « paresseux » et de modèles de langue que nous évaluons en extraction d’interactions géniques sur les données du challenge LLL2005 dépasse les résultats de l’état de l’art.

2010

pdf
Analyse morphologique en terminologie biomédicale par alignement et apprentissage non-supervisé
Vincent Claveau | Ewa Kijak
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans le domaine biomédical, beaucoup de termes sont des composés savants (composés de plusieurs racines gréco-latines). L’étude de leur morphologie est importante pour de nombreuses applications puisqu’elle permet de structurer ces termes, de les rechercher efficacement, de les traduire... Dans cet article, nous proposons de suivre une démarche originale mais fructueuse pour mener cette analyse morphologique sur des termes simples en français, en nous appuyant sur une langue pivot, le japonais, et plus précisément sur les termes écrits en kanjis. Pour cela nous avons développé un algorithme d’alignement de termes spécialement adapté à cette tâche. C’est cet alignement d’un terme français avec sa traduction en kanjis qui fournit en même temps une décomposition en morphe et leur étiquetage par les kanjis correspondants. Évalué sur un jeu de données conséquent, notre approche obtient une précision supérieure à 70% et montrent son bien fondé en comparaison avec les techniques existantes. Nous illustrons également l’intérêt de notre démarche au travers de deux applications directes de ces alignements : la traduction de termes inconnus et la découverte de relations entre morphes pour la tructuration terminologique.

pdf
News Image Annotation on a Large Parallel Text-image Corpus
Pierre Tirilly | Vincent Claveau | Patrick Gros
Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10)

In this paper, we present a multimodal parallel text-image corpus, and propose an image annotation method that exploits the textual information associated with images. Our corpus contains news articles composed of a text, images and image captions, and is significantly larger than the other news corpora proposed in image annotation papers (27,041 articles and 42,568 captionned images). In our experiments, we use the text of the articles as a textual information source to annotate images, and image captions as a groundtruth to evaluate our annotation algorithm. Our annotation method identifies relevant named entities in the texts, and associates them with high-level visual concepts detected in the images (in this paper, faces and logos). The named entities most suited to image annotation are selected using an unsupervised score based on their statistics, inspired from the weights used in information retrieval. Our experiments show that, although it is very simple, our annotation method achieves an acceptable accuracy on our real-world news corpus.

pdf
Inferring Syntactic Rules for Word Alignment through Inductive Logic Programming
Sylwia Ozdowska | Vincent Claveau
Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10)

This paper presents and evaluates an original approach to automatically align bitexts at the word level. It relies on a syntactic dependency analysis of the source and target texts and is based on a machine-learning technique, namely inductive logic programming (ILP). We show that ILP is particularly well suited for this task in which the data can only be expressed by (translational and syntactic) relations. It allows us to infer easily rules called syntactic alignment rules. These rules make the most of the syntactic information to align words. A simple bootstrapping technique provides the examples needed by ILP, making this machine learning approach entirely automatic. Moreover, through different experiments, we show that this approach requires a very small amount of training data, and its performance rivals some of the best existing alignment systems. Furthermore, cases of syntactic isomorphisms or non-isomorphisms between the source language and the target language are easily identified through the inferred rules.

2009

pdf
La /fOnetizasjc/ comme un problème de translittération
Vincent Claveau
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

La phonétisation est une étape essentielle pour le traitement de l’oral. Dans cet article, nous décrivons un système automatique de phonétisation de mots isolés qui est simple, portable et performant. Il repose sur une approche par apprentissage ; le système est donc construit à partir d’exemples de mots et de leur représentation phonétique. Nous utilisons pour cela une technique d’inférence de règles de réécriture initialement développée pour la translittération et la traduction. Pour évaluer les performances de notre approche, nous avons utilisé plusieurs jeux de données couvrant différentes langues et divers alphabets phonétiques, tirés du challenge Pascal Pronalsyl. Les très bons résultats obtenus égalent ou dépassent ceux des meilleurs systèmes de l’état de l’art.

2008

pdf
Automatic Translation of Biomedical Terms by Supervised Machine Learning
Vincent Claveau
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)

In this paper, we present a simple yet efficient automatic system to translate biomedical terms. It mainly relies on a machine learning approach able to infer rewriting rules from pair of terms in two languages. Given a new term, these rules are then used to transform the initial term into its translation. Since conflicting rules may produce different translations, we also use language modeling to single out the best candidate. We report experiments on different language pairs (including Czech, English, French, Italian, German, Portuguese, Spanish and even Russian); our approach yields good results (varying according to the considered languages) and outperforms existing ones for the French-English pair.

pdf
Apprentissage artificiel de règles d’indexation pour MEDLINE
Aurélie Névéol | Vincent Claveau
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

L’indexation est une composante importante de tout système de recherche d’information. Dans MEDLINE, la base documentaire de référence pour la littérature du domaine biomédical, le contenu des articles référencés est indexé à l’aide de descripteurs issus du thésaurus MeSH. Avec l’augmentation constante de publications à indexer pour maintenir la base à jour, le besoin d’outils automatiques se fait pressant pour les indexeurs. Dans cet article, nous décrivons l’utilisation et l’adaptation de la Programmation Logique Inductive (PLI) pour découvrir des règles d’indexation permettant de générer automatiquement des recommandations d’indexation pour MEDLINE. Les résultats obtenus par cette approche originale sont très satisfaisants comparés à ceux obtenus à l’aide de règles manuelles lorsque celles-ci existent. Ainsi, les jeux de règles obtenus par PLI devraient être prochainement intégrés au système produisant les recommandations d’indexation automatique pour MEDLINE.

pdf
Automatic inference of indexing rules for MEDLINE
Aurélie Névéol | Sonya Shooshan | Vincent Claveau
Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing

2007

pdf
Inférence de règles de réécriture pour la traduction de termes biomédicaux
Vincent Claveau
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans le domaine biomédical, le caractère multilingue de l’accès à l’information est un problème d’importance. Dans cet article nous présentons une technique originale permettant de traduire des termes simples du domaine biomédical de et vers de nombreuses langues. Cette technique entièrement automatique repose sur l’apprentissage de règles de réécriture à partir d’exemples et l’utilisation de modèles de langues. Les évaluations présentées sont menées sur différentes paires de langues (français-anglais, espagnol-portugais, tchèque-anglais, russe-anglais...). Elles montrent que cette approche est très efficace et offre des performances variables selon les langues mais très bonnes dans l’ensemble et nettement supérieures à celles disponibles dans l’état de l’art. Les taux de précision de traductions s’étagent ainsi de 57.5% pour la paire russe-anglais jusqu’à 85% pour la paire espagnol-portugais et la paire françaisanglais.

2005

pdf
Alignement de mots par apprentissage de règles de propagation syntaxique en corpus de taille restreinte
Sylwia Ozdowska | Vincent Claveau
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Cet article présente et évalue une approche originale et efficace permettant d’aligner automatiquement un bitexte au niveau des mots. Pour cela, cette approche tire parti d’une analyse syntaxique en dépendances des bitextes effectuée par les outils SYNTEX et utilise une technique d’apprentissage artificiel, la programmation logique inductive, pour apprendre automatiquement des règles dites de propagation. Celles-ci se basent sur les informations syntaxiques connues pour ensuite aligner les mots avec une grande précision. La méthode est entièrement automatique, et les résultats évalués sur les données de la campagne d’alignement HLT montrent qu’elle se compare aux meilleures techniques existantes. De plus, alors que ces dernières nécessitent plusieurs millions de phrases pour s’entraîner, notre approche n’en requiert que quelques centaines. Enfin, l’examen des règles de propagation inférées permet d’identifier facilement les cas d’isomorphismes et de non-isomorphismes syntaxiques entre les deux langues traitées.

pdf
Traduction de termes biomédicaux par inférence de transducteurs
Vincent Claveau | Pierre Zweigenbaum
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Cet article propose et évalue une méthode de traduction automatique de termes biomédicaux simples du français vers l’anglais et de l’anglais vers le français. Elle repose sur une technique d’apprentissage artificiel supervisée permettant d’inférer des transducteurs à partir d’exemples de couples de termes bilingues ; aucune autre ressource ou connaissance n’est requise. Ces transducteurs, capturant les grandes régularités de traduction existant dans le domaine biomédical, sont ensuite utilisés pour traduire de nouveaux termes français en anglais et vice versa. Les évaluations menées montrent que le taux de bonnes traductions de notre technique se situe entre 52 et 67%. À travers un examen des erreurs les plus courantes, nous identifions quelques limites inhérentes à notre approche et proposons quelques pistes pour les dépasser. Nous envisageons enfin plusieurs extensions à ce travail.

2004

pdf
From efficiency to portability: acquisition of semantic relations by semi-supervised machine learning
Vincent Claveau | Pascale Sébillot
COLING 2004: Proceedings of the 20th International Conference on Computational Linguistics

pdf
Extension de requêtes par lien sémantique nom-verbe acquis sur corpus
Vincent Claveau | Pascale Sébillot
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

En recherche d’information, savoir reformuler une idée par des termes différents est une des clefs pour l’amélioration des performances des systèmes de recherche d’information (SRI) existants. L’un des moyens pour résoudre ce problème est d’utiliser des ressources sémantiques spécialisées et adaptées à la base documentaire sur laquelle les recherches sont faites. Nous proposons dans cet article de montrer que les liens sémantiques entre noms et verbes appelés liens qualia, définis dans le modèle du Lexique génératif (Pustejovsky, 1995), peuvent effectivement améliorer les résultats des SRI. Pour cela, nous extrayons automatiquement des couples nom-verbe en relation qualia de la base documentaire à l’aide du système d’acquisition ASARES (Claveau, 2003a). Ces couples sont ensuite utilisés pour étendre les requêtes d’un système de recherche. Nous montrons, à l’aide des données de la campagne d’évaluation Amaryllis, que cette extension permet effectivement d’obtenir des réponses plus pertinentes, et plus particulièrement pour les premiers documents retournés à l’utilisateur.

pdf
Discovering Specific Semantic Relationships between Nouns and Verbs in a Specialized French Corpus
Vincent Claveau | Marie-Claude L’Homme
Proceedings of CompuTerm 2004: 3rd International Workshop on Computational Terminology

2003

pdf
Extraction de couples nom-verbe sémantiquement liés : une technique symbolique automatique
Vincent Claveau
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans le modèle du Lexique génératif (Pustejovsky, 1995), certaines propriétés sémantiques des noms sont exprimées à l’aide de verbes. Les couples nom-verbe ainsi formés présentent un intérêt applicatif notamment en recherche d’information. Leur acquisition sur corpus constitue donc un enjeu, mais la découverte des patrons qui les définissent en contexte est également importante pour la compréhension même du modèle du Lexique génératif. Cet article présente une technique entièrement automatique permettant de répondre à ce double besoin d’extraction sur corpus de couples et de patrons morpho-syntaxiques et sémantiques. Elle combine pour ce faire deux approches d’acquisition— l’approche statistique et l’approche symbolique— en conservant les avantages propres à chacune d’entre elles : robustesse et automatisation des méthodes statistiques, qualité et expressivité des résultats des techniques symboliques.

2002

pdf
Acquisition of Qualia Elements from Corpora - Evaluation of a Symbolic Learning Method
Pierrette Bouillon | Vincent Claveau | Cécile Fabre | Pascale Sébillot
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)