Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Défi Fouille de Textes (atelier TALN-RECITAL)

Emmanuel Morin, Sophie Rosset, Pierre Zweigenbaum (Editors)

Anthology ID:: 2019.jeptalnrecital-deft
Month:: 7
Year:: 2019
Address:: Toulouse, France
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA
URL:: https://aclanthology.org/2019.jeptalnrecital-deft
DOI:
Bib Export formats:: BibTeX

pdf bib
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Défi Fouille de Textes (atelier TALN-RECITAL)
Emmanuel Morin | Sophie Rosset | Pierre Zweigenbaum

pdf bib abs
Recherche et extraction d’information dans des cas cliniques. Présentation de la campagne d’évaluation DEFT 2019 (Information Retrieval and Information Extraction from Clinical Cases)
Natalia Grabar | Cyril Grouin | Thierry Hamon | Vincent Claveau

Cet article présente la campagne d’évaluation DEFT 2019 sur l’analyse de textes cliniques rédigés en français. Le corpus se compose de cas cliniques publiés et discutés dans des articles scientifiques, et indexés par des mots-clés. Nous proposons trois tâches indépendantes : l’indexation des cas cliniques et discussions, évaluée prioritairement par la MAP (mean average precision), l’appariement entre cas cliniques et discussions, évalué au moyen d’une précision, et l’extraction d’information parmi quatre catégories (âge, genre, origine de la consultation, issue), évaluée en termes de rappel, précision et F-mesure. Nous présentons les résultats obtenus par les participants sur chaque tâche.

pdf bib abs
Participation d’EDF R&D à DEFT 2019 : des vecteurs et des règles ! (EDF R&D submission to DEFT 2019 )
Philippe Suignard | Meryl Bothua | Alexandra Benamar

Ce papier décrit la participation d’EDF R&D à la campagne d’évaluation DEFT 2019. Notre équipe a participé aux trois tâchés proposées : Indexation de cas cliniques (Tâche T1) ; Détection de similarité entre des cas cliniques et des discussions (Tâche T2) ; Extraction d’information dans des cas cliniques (Tâche 3). Nous avons utilisé des méthodes symboliques et/ou numériques en fonction de ces tâches. Aucune donnée supplémentaire, autre que les données d’apprentissage, n’a été utilisée. Notre équipe obtient des résultats satisfaisants sur l’ensemble des taches et se classe première sur la tache 2. Les méthodes proposées sont facilement transposables à d’autres tâches d’indexation et de détection de similarité qui peuvent intéresser plusieurs entités du groupe EDF.

pdf abs
Participation de l’équipe LAI à DEFT 2019 (Participation of team LAI in the DEFT 2019 challenge )
Jacques Hilbey | Louise Deléger | Xavier Tannier

Nous présentons dans cet article les méthodes conçues et les résultats obtenus lors de notre participation à la tâche 3 de la campagne d’évaluation DEFT 2019. Nous avons utilisé des approches simples à base de règles ou d’apprentissage automatique, et si nos résultats sont très bons sur les informations simples à extraire comme l’âge et le sexe du patient, ils restent mitigés sur les tâches plus difficiles.

pdf abs
DÉfi Fouille de Textes 2019 : indexation par extraction et appariement textuel (DEFT 2019 : extraction-based document indexing and textual document similarity matching )
Jean-Christophe Mensonides | Pierre-Antoine Jean | Andon Tchechmedjiev | Sébastien Harispe

Cet article présente la contribution de l’équipe du Laboratoire de Génie Informatique et d’Ingénierie de Production (LGI2P) d’IMT Mines Alès au DÉfi Fouille de Textes (DEFT) 2019. Il détaille en particulier deux approches proposées pour les tâches liées à (1) l’indexation et à (2) la similarité de documents. Ces méthodes reposent sur des techniques robustes et éprouvées du domaine de la Recherche d’Information et du Traitement Automatique du Langage Naturel, qui ont été adaptées à la nature spécifique du corpus (biomédical/clinique) et couplées à des mécanismes développés pour répondre aux spécificités des tâches traitées. Pour la tâche 1, nous proposons une méthode d’indexation par extraction appliquée sur une version normalisée du corpus (MAP de 0,48 à l’évaluation) ; les spécificités de la phase de normalisation seront en particulier détaillées. Pour la tâche 2, au-delà de la présentation de l’approche proposée basée sur l’évaluation de similarités sur des représentations de documents (score de 0,91 à l’évaluation), nous proposons une étude comparative de l’impact des choix de la distance et de la manière de représenter les textes sur la performance de l’approche.

pdf abs
Indexation et appariements de documents cliniques pour le Deft 2019 (Indexing and pairing texts of the medical domain )
Davide Buscaldi | Dhaou Ghoul | Joseph Le Roux | Gaël Lejeune

Dans cet article, nous présentons nos méthodes pour les tâches d’indexation et d’appariements du Défi Fouile de Textes (Deft) 2019. Pour la taĉhe d’indexation nous avons testé deux méthodes, une fondée sur l’appariemetn préalable des documents du jeu de tset avec les documents du jeu d’entraînement et une autre méthode fondée sur l’annotation terminologique. Ces méthodes ont malheureusement offert des résultats assez faible. Pour la tâche d’appariement, nous avons dévellopé une méthode sans apprentissage fondée sur des similarités de chaînes de caractères ainsi qu’une méthode exploitant des réseaux siamois. Là encore les résultats ont été plutôt décevant même si la méthode non supervisée atteint un score plutôt honorable pour une méthode non-supervisée : 62% .

pdf abs
DeFT 2019 : Auto-encodeurs, Gradient Boosting et combinaisons de modèles pour l’identification automatique de mots-clés. Participation de l’équipe TALN du LS2N (Autoencoders, gradient boosting and ensemble systems for automatic keyphrase assignment : The LS2N team participation’s in the 2019 edition of DeFT)
Mérième Bouhandi | Florian Boudin | Ygor Gallina

Nous présentons dans cet article la participation de l’équipe TALN du LS2N à la tâche d’indexation de cas cliniques (tâche 1). Nous proposons deux systèmes permettant d’identifier, dans la liste de mots-clés fournie, les mots-clés correspondant à un couple cas clinique/discussion, ainsi qu’un classifieur entraîné sur la combinaison des sorties des deux systèmes. Nous présenterons dans le détail les descripteurs utilisés pour représenter les mots-clés ainsi que leur impact sur nos systèmes de classification.

pdf abs
Qwant Research @DEFT 2019 : appariement de documents et extraction d’informations à partir de cas cliniques (Document matching and information retrieval using clinical cases)
Estelle Maudet | Oralie Cattan | Maureen de Seyssel | Christophe Servan

Dans ce papier, nous présentons la participation de Qwant Research aux tâches 2 et 3 de l’édition 2019 du défi fouille de textes (DEFT) portant sur l’analyse de documents cliniques rédigés en français. La tâche 2 est une tâche de similarité sémantique qui demande d’apparier cas cliniques et discussions médicales. Pour résoudre cette tâche, nous proposons une approche reposant sur des modèles de langue et évaluons l’impact de différents pré-traitements et de différentes techniques d’appariement sur les résultats. Pour la tâche 3, nous avons développé un système d’extraction d’information qui produit des résultats encourageants en termes de précision. Nous avons expérimenté deux approches différentes, l’une se fondant exclusivement sur l’utilisation de réseaux de neurones pour traiter la tâche, l’autre reposant sur l’exploitation des informations linguistiques issues d’une analyse syntaxique.

pdf abs
Aprentissage non-supervisé pour l’appariement et l’étiquetage de cas cliniques en français - DEFT2019 (Unsupervised learning for matching and labelling of French clinical cases - DEFT2019 )
Damien Sileo | Tim Van de Cruys | Philippe Muller | Camille Pradel

Nous présentons le système utilisé par l’équipe Synapse/IRIT dans la compétition DEFT2019 portant sur deux tâches liées à des cas cliniques rédigés en français : l’une d’appariement entre des cas cliniques et des discussions, l’autre d’extraction de mots-clefs. Une des particularité est l’emploi d’apprentissage non-supervisé sur les deux tâches, sur un corpus construit spécifiquement pour le domaine médical en français

pdf abs
Indexation et appariement de documents cliniques avec le modèle vectoriel (Indexing and matching clinical documents using the vector space model)
Khadim Dramé | Ibrahima Diop | Lamine Faty | Birame Ndoye

Dans ce papier, nous présentons les méthodes que nous avons développées pour participer aux tâches 1 et 2 de l’édition 2019 du défi fouille de textes (DEFT 2019). Pour la première tâche, qui s’intéresse à l’indexation de cas cliniques, une méthode utilisant la pondération TF-IDF (term frequency – inverse document frequency) a été proposée. Quant à la seconde tâche, la méthode proposée repose sur le modèle vectoriel pour apparier des discussions aux cas cliniques correspondants ; pour cela, le cosinus est utilisé comme mesure de similarité. L’indexation sémantique latente (latent semantic indexing – LSI) est également expérimentée pour étendre cette méthode. Pour chaque méthode, différentes configurations ont été testées et évaluées sur les données de test du DEFT 2019.