Abstract
Cet article présente MORFITT, le premier corpus multi-labels en français annoté en spécialités dans le domaine médical. MORFITT est composé de 3 624 résumés d’articles scientifiques issus de PubMed, annotés en 12 spécialités pour un total de 5 116 annotations. Nous détaillons le corpus, les expérimentations et les résultats préliminaires obtenus à l’aide d’un classifieur fondé sur le modèle de langage pré-entraîné CamemBERT. Ces résultats préliminaires démontrent la difficulté de la tâche, avec un F-score moyen pondéré de 61,78%.- Anthology ID:
- 2023.jeptalnrecital-arts.11
- Volume:
- Actes de CORIA-TALN 2023. Actes de l'atelier "Analyse et Recherche de Textes Scientifiques" (ARTS)@TALN 2023
- Month:
- 6
- Year:
- 2023
- Address:
- Paris, France
- Editors:
- Florian Boudin, Béatrice Daille, Richard Dufour, Oumaima El, Maël Houbre, Léane Jourdan, Nihel Kooli
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA
- Note:
- Pages:
- 66–70
- Language:
- French
- URL:
- https://aclanthology.org/2023.jeptalnrecital-arts.11
- DOI:
- Cite (ACL):
- Yanis Labrak, Mickael Rouvier, and Richard Dufour. 2023. MORFITT : Un corpus multi-labels d’articles scientifiques français dans le domaine biomédical. In Actes de CORIA-TALN 2023. Actes de l'atelier "Analyse et Recherche de Textes Scientifiques" (ARTS)@TALN 2023, pages 66–70, Paris, France. ATALA.
- Cite (Informal):
- MORFITT : Un corpus multi-labels d’articles scientifiques français dans le domaine biomédical (Labrak et al., JEP/TALN/RECITAL 2023)
- PDF:
- https://preview.aclanthology.org/nschneid-patch-4/2023.jeptalnrecital-arts.11.pdf