2023
pdf
bib
abs
Qui de DrBERT, Wikipédia ou Flan-T5 s’y connaît le plus en questions médicales ?
Clément Besnard
|
Mohamed Ettaleb
|
Christian Raymond
|
Nathalie Camelin
Actes de CORIA-TALN 2023. Actes du Défi Fouille de Textes@TALN2023
Ce papier décrit la participation de l’équipe LIUM-IRISA à la campagne d’évaluation DEFT 2023.Notre équipe a participé à la tâche principale. Cette année, celle-ci consiste à la mise en placed’approches afin de répondre automatiquement à des questions à choix multiples. Nous avons mis enplace plusieurs systèmes, un premier avec une base de connaissances, un second système utilisant unmodèle génératif, un système à base de similarité et un dernier système combinant un ensemble dedescripteurs.
2018
pdf
abs
IRISA at SMM4H 2018: Neural Network and Bagging for Tweet Classification
Anne-Lyse Minard
|
Christian Raymond
|
Vincent Claveau
Proceedings of the 2018 EMNLP Workshop SMM4H: The 3rd Social Media Mining for Health Applications Workshop & Shared Task
This paper describes the systems developed by IRISA to participate to the four tasks of the SMM4H 2018 challenge. For these tweet classification tasks, we adopt a common approach based on recurrent neural networks (BiLSTM). Our main contributions are the use of certain features, the use of Bagging in order to deal with unbalanced datasets, and on the automatic selection of difficult examples. These techniques allow us to reach 91.4, 46.5, 47.8, 85.0 as F1-scores for Tasks 1 to 4.
pdf
abs
Participation de l’IRISA à DeFT 2018 : classification et annotation d’opinion dans des tweets (IRISA at DeFT 2018: classifying and tagging opinion in tweets )
Anne-Lyse Minard
|
Christian Raymond
|
Vincent Claveau
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
Cet article décrit les systèmes développés par l’équipe LinkMedia de l’IRISA pour la campagne d’évaluation DeFT 2018 portant sur l’analyse d’opinion dans des tweets en français. L’équipe a participé à 3 des 4 tâches de la campagne : (i) classification des tweets selon s’ils concernent les transports ou non, (ii) classification des tweets selon leur polarité et (iii) annotation des marqueurs d’opinion et de l’objet à propos duquel est exprimée l’opinion. Nous avons utilisé un algorithme de boosting d’arbres de décision et des réseaux de neurones récurrents (RNN) pour traiter les tâches 1 et 2. Pour la tâche 3 nous avons expérimenté l’utilisation de réseaux de neurones récurrents associés à des CRF. Ces approches donnent des résultats proches, avec un léger avantage aux RNN, et ont permis d’être parmi les premiers classés pour chacune des tâches.
2012
pdf
Participation de l’IRISA à DeFT2012 : recherche d’information et apprentissage pour la génération de mots-clés (IRISA participation to DeFT2012: information retrieval and machine-learning for keyword generation) [in French]
Vincent Claveau
|
Christian Raymond
JEP-TALN-RECITAL 2012, Workshop DEFT 2012: DÉfi Fouille de Textes (DEFT 2012 Workshop: Text Mining Challenge)
pdf
Automates lexico-phonétiques pour l’indexation et la recherche de segments de parole (Lexical-phonetic automata for spoken utterance indexing and retrieval) [in French]
Julien Fayolle
|
Fabienne Moreau
|
Christian Raymond
|
Guillaume Gravier
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP
2010
pdf
abs
Reconnaissance robuste d’entités nommées sur de la parole transcrite automatiquement
Christian Raymond
|
Julien Fayolle
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Les transcriptions automatiques de parole constituent une ressource importante, mais souvent bruitée, pour décrire des documents multimédia contenant de la parole (e.g. journaux télévisés). En vue d’améliorer la recherche documentaire, une étape d’extraction d’information à caractère sémantique, précédant l’indexation, permet de faire face au problème des transcriptions imparfaites. Parmis ces contenus informatifs, on compte les entités nommées (e.g. noms de personnes) dont l’extraction est l’objet de ce travail. Les méthodes traditionnelles de reconnaissance basées sur une définition manuelle de grammaires formelles donnent de bons résultats sur du texte ou des transcriptions propres manuellement produites, mais leurs performances se trouvent fortement affectées lorsqu’elles sont appliquées sur des transcriptions automatiques. Nous présentons, ici, trois méthodes pour la reconnaissance d’entités nommées basées sur des algorithmes d’apprentissage automatique : les champs conditionnels aléatoires, les machines à de support, et les transducteurs à états finis. Nous présentons également une méthode pour rendre consistantes les données d’entrainement lorsqu’elles sont annotées suivant des conventions légèrement différentes. Les résultats montrent que les systèmes d’étiquetage obtenus sont parmi les plus robustes sur les données d’évaluation de la campagne ESTER 2 dans les conditions où la transcription automatique est particulièrement bruitée.
2008
pdf
abs
Active Annotation in the LUNA Italian Corpus of Spontaneous Dialogues
Christian Raymond
|
Kepa Joseba Rodriguez
|
Giuseppe Riccardi
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)
In this paper we present an active approach to annotate with lexical and semantic labels an Italian corpus of conversational human-human and Wizard-of-Oz dialogues. This procedure consists in the use of a machine learner to assist human annotators in the labeling task. The computer assisted process engages human annotators to check and correct the automatic annotation rather than starting the annotation from un-annotated data. The active learning procedure is combined with an annotation error detection to control the reliablity of the annotation. With the goal of converging as fast as possible to reliable automatic annotations minimizing the human effort, we follow the active learning paradigm, which selects for annotation the most informative training examples required to achieve a better level of performance. We show that this procedure allows to quickly converge on correct annotations and thus minimize the cost of human supervision.
pdf
abs
A Comparison of Various Methods for Concept Tagging for Spoken Language Understanding
Stefan Hahn
|
Patrick Lehnen
|
Christian Raymond
|
Hermann Ney
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)
The extraction of flat concepts out of a given word sequence is usually one of the first steps in building a spoken language understanding (SLU) or dialogue system. This paper explores five different modelling approaches for this task and presents results on a French state-of-the-art corpus, MEDIA. Additionally, two log-linear modelling approaches could be further improved by adding morphologic knowledge. This paper goes beyond what has been reported in the literature. We applied the models on the same training and testing data and used the NIST scoring toolkit to evaluate the experimental results to ensure identical conditions for each of the experiments and the comparability of the results. Using a model based on conditional random fields, we achieve a concept error rate of 11.8% on the MEDIA evaluation corpus.
2007
pdf
Standoff Coordination for Multi-Tool Annotation in a Dialogue Corpus
Kepa Joseba Rodríguez
|
Stefanie Dipper
|
Michael Götze
|
Massimo Poesio
|
Giuseppe Riccardi
|
Christian Raymond
|
Joanna Rabiega-Wiśniewska
Proceedings of the Linguistic Annotation Workshop
2004
pdf
On the Use of Confidence for Statistical Decision in Dialogue Strategies
Christian Raymond
|
Frédéric Béchet
|
Renato De Mori
|
Géraldine Damnati
Proceedings of the 5th SIGdial Workshop on Discourse and Dialogue at HLT-NAACL 2004