Flora Badin

2021

DOING@DEFT : utilisation de lexiques pour une classification efficace de cas cliniques (In this paper, we present our participation to the DEFT 2021 task 1)
Nicolas Hiot | Anne-Lyse Minard | Flora Badin
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT)

Nous présentons dans cet article notre participation à la tâche 1 de la campagne d’évaluation francophone DEFT 2021, sur l’identification du profil clinique du patient. Nous proposons une méthode évolutive et efficace en temps et en ressources pour la classification de documents médicaux pouvant être facilement adaptée à d’autres domaines de recherche. Notre système a obtenu les meilleures performances sur cette tâche avec une F-mesure de 0,814.

2020

pdf bib abs

Chunk Different Kind of Spoken Discourse: Challenges for Machine Learning
Iris Eshkol-Taravella | Mariame Maarouf | Flora Badin | Marie Skrovec | Isabelle Tellier
Proceedings of the Twelfth Language Resources and Evaluation Conference

This paper describes the development of a chunker for spoken data by supervised machine learning using the CRFs, based on a small reference corpus composed of two kinds of discourse: prepared monologue vs. spontaneous talk in interaction. The methodology considers the specific character of the spoken data. The machine learning uses the results of several available taggers, without correcting the results manually. Experiments show that the discourse type (monologue vs. free talk), the speech nature (spontaneous vs. prepared) and the corpus size can influence the results of the machine learning process and must be considered while interpreting the results.

2019

pdf bib abs

Chunker différents types de discours oraux : défis pour l’apprentissage automatique (Chunking different spoken speech types : challenges for machine learning)
Iris Eshkol-Taravella | Mariame Maarouf | Marie Skrovec | Flora Badin
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts

Le travail décrit le développement d’un chunker pour l’oral par apprentissage supervisé avec les CRFs, à partir d’un corpus de référence de petite taille et composé de productions de nature différente : monologue préparé vs discussion spontanée. La méthodologie respecte les spécificités des données traitées. L’apprentissage tient compte des résultats proposés par différents étiqueteurs morpho-syntaxiques disponibles sans correction manuelle de leurs résultats. Les expériences montrent que le genre de discours (monologue vs discussion), la nature de discours (spontané vs préparé) et la taille du corpus peuvent influencer les résultats de l’apprentissage, ce qui confirme que la nature des données traitées est à prendre en considération dans l’interprétation des résultats.

2010

pdf bib abs

Sign Languages (SLs) are the visuo-gestural languages practised by the deaf communities. Research on SLs requires to build, to analyse and to use corpora. The aim of this paper is to present various kinds of new uses of SL corpora. The way data are used take advantage of the new capabilities of annotation software for visualisation, numerical annotation, and processing. The nature of the data can be video-based or motion capture-based. The aims of the studies include language analysis, animation processing, and evaluation. We describe here some LIMSIs studies, and some studies from other laboratories as examples.