Camille Gosset


2021

pdf
Extraction automatique de relations sémantiques d’hyperonymie et d’hyponymie dans un corpus métier (Automatic extraction of hypernym and hyponym relations in a professional corpus)
Camille Gosset | Mokhtar Boumedyen Billami | Mathieu Lafourcade | Christophe Bortolaso | Mustapha Derras
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Nous nous intéressons dans cet article à l’extraction automatique de relations sémantiques d’hyperonymie et d’hyponymie à partir d’un corpus de spécialités métier. Le corpus regroupe des ouvrages et articles en français d’expertise juridique et a été partiellement annoté en termes-clés par des experts. Nous prétraitons ces annotations afin de pouvoir les retrouver dans ce corpus et obtenir un concept général pour extraire les relations entre ces termes. Nous décrivons une étude expérimentale qui compare plusieurs méthodes de classification appliquées sur des vecteurs de relations construits à partir d’un modèle Word2Vec. Nous comparons les résultats obtenus grâce à un jeu de données construit à partir de relations d’hyperonymie tirées d’un réseau lexico-sémantique français que nous inversons pour obtenir les relations d’hyponymie. Nos résultats montrent que nous obtenons une classification pouvant atteindre un taux d’exactitude de 92 %.

pdf
Participation de Berger-Levrault (BL.Research) à DEFT 2021 : de l’apprentissage des seuils de validation à la classification multi-labels de documents (Berger-Levrault (BL)
Mokhtar Boumedyen Billami | Lina Nicolaieff | Camille Gosset | Christophe Bortolaso
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT)

Cet article présente notre participation à l’édition 2021 du DÉfi Fouille de Textes (DEFT) et plus précisément à la première tâche liée à l’identification du profil clinique du patient. Cette tâche consiste à sélectionner, pour un document décrivant l’état d’un patient, les différents types de maladies rencontrées correspondant aux entrées génériques des chapitres du MeSH (Medical Subject Headings). Dans notre travail, nous nous sommes intéressés aux questions suivantes : (1) Comment améliorer les représentations vectorielles de documents, voire de classes ? (2) Comment apprendre des seuils de validation de classes ? Et (3) Une approche combinant apprentissage supervisé et similarité sémantique peut-elle apporter une meilleure performance à un système de classification multi-labels ?

2020

pdf
DEFT 2020 - Extraction d’information fine dans les données cliniques : terminologies spécialisées et graphes de connaissance (Fine-grained Information Extraction in Clinical Data : Dedicated Terminologies and Knowledge Graphs )
Thomas Lemaitre | Camille Gosset | Mathieu Lafourcade | Namrata Patel | Guilhem Mayoral
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Atelier DÉfi Fouille de Textes

Nous présentons dans cet article notre approche à base de règles conçue pour répondre à la tâche 3 de la campagne d’évaluation DEFT 2020. Selon le type d’information à extraire, nous construisons (1) une terminologie spécialisée à partir de ressources médicales et (2) un graphe orienté basé sur les informations extraites de la base de connaissances généraliste et de grande taille - JeuxDeMots.