@inproceedings{pelloin-prouteau-2020-apprentissage,
title = "Apprentissage de plongements de mots sur des corpus en langue de sp{\'e}cialit{\'e} : une {\'e}tude d{'}impact (Learning word embeddings on domain specific corpora : an impact study )",
author = "Pelloin, Valentin and
Prouteau, Thibault",
editor = "Benzitoun, Christophe and
Braud, Chlo{\'e} and
Huber, Laurine and
Langlois, David and
Ouni, Slim and
Pogodalla, Sylvain and
Schneider, St{\'e}phane",
booktitle = "Actes de la 6e conf{\'e}rence conjointe Journ{\'e}es d'{\'E}tudes sur la Parole (JEP, 33e {\'e}dition), Traitement Automatique des Langues Naturelles (TALN, 27e {\'e}dition), Rencontre des {\'E}tudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (R{\'E}CITAL, 22e {\'e}dition). Volume 3 : Rencontre des {\'E}tudiants Chercheurs en Informatique pour le TAL",
month = "6",
year = "2020",
address = "Nancy, France",
publisher = "ATALA et AFCP",
url = "https://preview.aclanthology.org/fix-sig-urls/2020.jeptalnrecital-recital.13/",
pages = "164--178",
language = "fra",
abstract = "Les m{\'e}thodes d{'}apprentissage de plongements lexicaux constituent d{\'e}sormais l'{\'e}tat de l{'}art pour la repr{\'e}sentation du vocabulaire et des documents sous forme de vecteurs dans de nombreuses t{\^a}ches de Traitement Automatique du Langage Naturel (TALN). Dans ce travail, nous consid{\'e}rons l{'}apprentissage et l{'}usage de plongements lexicaux dans le cadre de corpus en langue de sp{\'e}cialit{\'e} de petite taille. En particulier, nous souhaitons savoir si dans ce cadre, il est pr{\'e}f{\'e}rable d{'}utiliser des plongements pr{\'e}appris sur des corpus tr{\`e}s volumineux tels Wikip{\'e}dia ou bien s{'}il est pr{\'e}f{\'e}rable d{'}apprendre des plongements sur ces corpus en langue de sp{\'e}cialit{\'e}. Pour r{\'e}pondre {\`a} cette question, nous consid{\'e}rons deux corpus en langue de sp{\'e}cialit{\'e} : O HSUMED issu du domaine m{\'e}dical, et un corpus de documentation technique, propri{\'e}t{\'e} de SNCF. Apr{\`e}s avoir introduit ces corpus et {\'e}valu{\'e} leur sp{\'e}cificit{\'e}, nous d{\'e}finissons une t{\^a}che de classification. Pour cette t{\^a}che, nous choisissons d{'}utiliser en entr{\'e}e d{'}un classifieur neuronal des repr{\'e}sentations des documents qui sont soit bas{\'e}es sur des plongements appris sur les corpus de sp{\'e}cialit{\'e}, soit sur des plongements appris sur Wikip{\'e}dia. Notre analyse montre que les plongements appris sur Wikip{\'e}dia fournissent de tr{\`e}s bons r{\'e}sultats. Ceux-ci peuvent {\^e}tre utilis{\'e}s comme une r{\'e}f{\'e}rence fiable, m{\^e}me si dans le cas d{'}O HSUMED, il vaut mieux apprendre des plongements sur ce m{\^e}me corpus. La discussion des r{\'e}sultats se fait en interrogeant les sp{\'e}cificit{\'e}s des deux corpus, mais ne permet pas d'{\'e}tablir clairement dans quels cas apprendre des plongements sp{\'e}cifiques au corpus."
}
Markdown (Informal)
[Apprentissage de plongements de mots sur des corpus en langue de spécialité : une étude d’impact (Learning word embeddings on domain specific corpora : an impact study )](https://preview.aclanthology.org/fix-sig-urls/2020.jeptalnrecital-recital.13/) (Pelloin & Prouteau, JEP/TALN/RECITAL 2020)
ACL