Accentuation de mots inconnus : application au thesaurus biomédical MeSH

Pierre Zweigenbaum, Natalia Grabar


Abstract
Certaines ressources textuelles ou terminologiques sont écrites sans signes diacritiques, ce qui freine leur utilisation pour le traitement automatique des langues. Dans un domaine spécialisé comme la médecine, il est fréquent que les mots rencontrés ne se trouvent pas dans les lexiques électroniques disponibles. Se pose alors la question de l’accentuation de mots inconnus : c’est le sujet de ce travail. Nous proposons deux méthodes d’accentuation de mots inconnus fondées sur un apprentissage par observation des contextes d’occurrence des lettres à accentuer dans un ensemble de mots d’entraînement, l’une adaptée de l’étiquetage morphosyntaxique, l’autre adaptée d’une méthode d’apprentissage de règles morphologiques. Nous présentons des résultats expérimentaux pour la lettre e sur un thesaurus biomédical en français : le MeSH. Ces méthodes obtiennent une précision de 86 à 96 % (+-4 %) pour un rappel allant de 72 à 86 %.
Anthology ID:
2002.jeptalnrecital-long.3
Volume:
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2002
Address:
Nancy, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
53–62
Language:
French
URL:
https://aclanthology.org/2002.jeptalnrecital-long.3
DOI:
Bibkey:
Cite (ACL):
Pierre Zweigenbaum and Natalia Grabar. 2002. Accentuation de mots inconnus : application au thesaurus biomédical MeSH. In Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 53–62, Nancy, France. ATALA.
Cite (Informal):
Accentuation de mots inconnus : application au thesaurus biomédical MeSH (Zweigenbaum & Grabar, JEP/TALN/RECITAL 2002)
Copy Citation:
PDF:
https://preview.aclanthology.org/update-css-js/2002.jeptalnrecital-long.3.pdf