Identification des Expressions Polylexicales dans les Tweets (Identification of Multiword Expressions in Tweets)

Nicolas Zampieri, Carlos Ramisch, Irina Illina, Dominique Fohr


Abstract
L’identification des expressions polylexicales (EP) dans les tweets est une tâche difficile en raison de la nature linguistique complexe des EP combinée à l’utilisation d’un langage non standard. Dans cet article, nous présentons cette tâche d’identification sur des données anglaises de Twitter. Nous comparons les performances de deux systèmes : un utilisant un dictionnaire et un autre des réseaux de neurones. Nous évaluons expérimentalement sept configurations d’un système état de l’art fondé sur des réseaux neuronaux récurrents utilisant des embeddings contextuels générés par BERT. Le système fondé sur les réseaux neuronaux surpasse l’approche dictionnaire, collecté automatiquement à partir des EP dans des corpus, grâce à son pouvoir de généralisation supérieur.
Anthology ID:
2022.jeptalnrecital-taln.36
Volume:
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Month:
6
Year:
2022
Address:
Avignon, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
365–373
Language:
French
URL:
https://aclanthology.org/2022.jeptalnrecital-taln.36
DOI:
Bibkey:
Cite (ACL):
Nicolas Zampieri, Carlos Ramisch, Irina Illina, and Dominique Fohr. 2022. Identification des Expressions Polylexicales dans les Tweets (Identification of Multiword Expressions in Tweets). In Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale, pages 365–373, Avignon, France. ATALA.
Cite (Informal):
Identification des Expressions Polylexicales dans les Tweets (Identification of Multiword Expressions in Tweets) (Zampieri et al., JEP/TALN/RECITAL 2022)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingestion-script-update/2022.jeptalnrecital-taln.36.pdf