L’optimisation du plongement de mots pour le français : une application de la classification des phrases (Optimization of Word Embeddings for French : an Application of Sentence Classification)

Jungyeul Park


Abstract
Nous proposons trois nouvelles méthodes pour construire et optimiser des plongements de mots pour le français. Nous utilisons les résultats de l’étiquetage morpho-syntaxique, de la détection des expressions multi-mots et de la lemmatisation pour un espace vectoriel continu. Pour l’évaluation, nous utilisons ces vecteurs sur une tâche de classification de phrases et les comparons avec le vecteur du système de base. Nous explorons également l’approche d’adaptation de domaine pour construire des vecteurs. Malgré un petit nombre de vocabulaires et la petite taille du corpus d’apprentissage, les vecteurs spécialisés par domaine obtiennent de meilleures performances que les vecteurs hors domaine.
Anthology ID:
2018.jeptalnrecital-court.10
Volume:
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
Month:
5
Year:
2018
Address:
Rennes, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
281–292
Language:
French
URL:
https://aclanthology.org/2018.jeptalnrecital-court.10
DOI:
Bibkey:
Cite (ACL):
Jungyeul Park. 2018. L’optimisation du plongement de mots pour le français : une application de la classification des phrases (Optimization of Word Embeddings for French : an Application of Sentence Classification). In Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN, pages 281–292, Rennes, France. ATALA.
Cite (Informal):
L’optimisation du plongement de mots pour le français : une application de la classification des phrases (Optimization of Word Embeddings for French : an Application of Sentence Classification) (Park, JEP/TALN/RECITAL 2018)
Copy Citation:
PDF:
https://preview.aclanthology.org/auto-file-uploads/2018.jeptalnrecital-court.10.pdf