Takuya Nakamura
2026
Edition 2.0 of the PARSEME shared task on multilingual identification and paraphrasing of multiword expressions
Manon Scholivet | Agata Savary | Carlos Ramisch | Eric Bilinski | Takuya Nakamura | Maria Mitrofan | Vasile Pais
Proceedings of the 22nd Workshop on Multiword Expressions (MWE 2026)
Manon Scholivet | Agata Savary | Carlos Ramisch | Eric Bilinski | Takuya Nakamura | Maria Mitrofan | Vasile Pais
Proceedings of the 22nd Workshop on Multiword Expressions (MWE 2026)
Multiword expressions (MWEs) have been a major challenge in NLP for decades and research on MWEs was driven notably by shared tasks, including those organized by the PARSEME community. We report the organisation and the results of edition 2.0 of the PARSEME shared task. For the first time, all syntactic categories are covered: verbal, nominal, adjectival, adverbial and functional. We rely on edition 2.0 of the PARSEME corpus, annotated for all these categories in 17 languages. We create a new dataset with paraphrases of sentences containing idioms in 14 languages, and defining a new subtask dedicated to MWE paraphrasing. We extend our evaluation protocol by measuring both performance and diversity of systems, and including manual evaluation in paraphrasing. 10 systems, including the baseline, participated in the MWE identification subtask and 5 in the paraphrasing subtask. Results are promising, but known MWE identification challenges remain unsolved. Performance correlates positively with diversity in MWE identification, and negatively in MWE paraphrasing.
PARSEME 2.0 Multilingual Corpus of Multiword Expressions
Agata Savary | Manon Scholivet | Carlos Ramisch | Takuya Nakamura | Eric Bilinski | Sara Stymne | Voula Giouli | Stella Markantonatou | Vasile Pais | Maria Mitrofan | Louis Estève | Bruno Guillaume | Verginica Barbu Mititelu | Jaka Čibej | Roberto Díaz Hernández | Victoria Fendel | Polona Gantar | Olha Kanishcheva | Cvetana Krstev | Chaya Liebeskind | Irina Lobzhanidze | Aleksandra M. Marković | Gunta Nešpore-Bērzkalne | Adriana S. Pagano | Mehrnoush Shamsfard | Ranka Stankovic | Vahide Tajalli | Carole Tiberius | Aakanksha Padhye
Proceedings of the Fifteenth Language Resources and Evaluation Conference
Agata Savary | Manon Scholivet | Carlos Ramisch | Takuya Nakamura | Eric Bilinski | Sara Stymne | Voula Giouli | Stella Markantonatou | Vasile Pais | Maria Mitrofan | Louis Estève | Bruno Guillaume | Verginica Barbu Mititelu | Jaka Čibej | Roberto Díaz Hernández | Victoria Fendel | Polona Gantar | Olha Kanishcheva | Cvetana Krstev | Chaya Liebeskind | Irina Lobzhanidze | Aleksandra M. Marković | Gunta Nešpore-Bērzkalne | Adriana S. Pagano | Mehrnoush Shamsfard | Ranka Stankovic | Vahide Tajalli | Carole Tiberius | Aakanksha Padhye
Proceedings of the Fifteenth Language Resources and Evaluation Conference
We present edition 2.0 of the PARSEME multilingual corpus annotated for multiword expressions (MWEs), resulting from efforts of the PARSEME community towards universality-driven modeling of idiomaticity. With respect to previous editions, we extend the annotation scope to all syntactic MWE categories: verbal, nominal, adjectival, adverbial and functional. We cover 17 languages, of which 7 are new. The annotation process is based on cross-lingually unified guidelines, phrased as decision diagrams over linguistic tests, and a typology of 18 MWE categories. The corpus contains almost 5 million tokens, over 250,000 sentences and 140,000 MWE annotations. The applicability of the corpus is tested in baseline experiments with a prompt-based MWE identification system. Results show that generic large language models do not encode sufficient knowledge to solve the MWE identification task.
2021
Where Do Aspectual Variants of Light Verb Constructions Belong?
Aggeliki Fotopoulou | Eric Laporte | Takuya Nakamura
Proceedings of the 17th Workshop on Multiword Expressions (MWE 2021)
Aggeliki Fotopoulou | Eric Laporte | Takuya Nakamura
Proceedings of the 17th Workshop on Multiword Expressions (MWE 2021)
Expressions with an aspectual variant of a light verb, e.g. ‘take on debt’ vs. ‘have debt’, are frequent in texts but often difficult to classify between verbal idioms, light verb constructions or compositional phrases. We investigate the properties of such expressions with a disputed membership and propose a selection of features that determine more satisfactory boundaries between the three categories in this zone, assigning the expressions to one of them.
2016
Un Verbenet du français [A Verbnet for French]
Laurence Danlos | Quentin Pradet | Lucie Barque | Takuya Nakamura | Matthieu Constant
Traitement Automatique des Langues, Volume 57, Numéro 1 : Varia [Varia]
Laurence Danlos | Quentin Pradet | Lucie Barque | Takuya Nakamura | Matthieu Constant
Traitement Automatique des Langues, Volume 57, Numéro 1 : Varia [Varia]
2009
La complémentarité des approches manuelle et automatique en acquisition lexicale
Cédric Messiant | Takuya Nakamura | Stavroula Voyatzi
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Cédric Messiant | Takuya Nakamura | Stavroula Voyatzi
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Les ressources lexicales sont essentielles pour obtenir des systèmes de traitement des langues performants. Ces ressources peuvent être soit construites à la main, soit acquises automatiquement à partir de gros corpus. Dans cet article, nous montrons la complémentarité de ces deux approches. Pour ce faire, nous utilisons l’exemple de la sous-catégorisation verbale en comparant un lexique acquis par des méthodes automatiques (LexSchem) avec un lexique construit manuellement (Le Lexique-Grammaire). Nous montrons que les informations acquises par ces deux méthodes sont bien distinctes et qu’elles peuvent s’enrichir mutuellement.
Une expérience de fusion pour l’annotation d’entités nommées
Caroline Brun | Nicolas Dessaigne | Maud Ehrmann | Baptiste Gaillard | Sylvie Guillemin-Lanne | Guillaume Jacquet | Aaron Kaplan | Marianna Kucharski | Claude Martineau | Aurélie Migeotte | Takuya Nakamura | Stavroula Voyatzi
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Caroline Brun | Nicolas Dessaigne | Maud Ehrmann | Baptiste Gaillard | Sylvie Guillemin-Lanne | Guillaume Jacquet | Aaron Kaplan | Marianna Kucharski | Claude Martineau | Aurélie Migeotte | Takuya Nakamura | Stavroula Voyatzi
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Nous présentons une expérience de fusion d’annotations d’entités nommées provenant de différents annotateurs. Ce travail a été réalisé dans le cadre du projet Infom@gic, projet visant à l’intégration et à la validation d’applications opérationnelles autour de l’ingénierie des connaissances et de l’analyse de l’information, et soutenu par le pôle de compétitivité Cap Digital « Image, MultiMédia et Vie Numérique ». Nous décrivons tout d’abord les quatre annotateurs d’entités nommées à l’origine de cette expérience. Chacun d’entre eux fournit des annotations d’entités conformes à une norme développée dans le cadre du projet Infom@gic. L’algorithme de fusion des annotations est ensuite présenté ; il permet de gérer la compatibilité entre annotations et de mettre en évidence les conflits, et ainsi de fournir des informations plus fiables. Nous concluons en présentant et interprétant les résultats de la fusion, obtenus sur un corpus de référence annoté manuellement.
Search
Fix author
Co-authors
- Eric Bilinski 2
- Maria Mitrofan 2
- Vasile Pais 2
- Carlos Ramisch 2
- Agata Savary 2
- Manon Scholivet 2
- Stavroula Voyatzi 2
- Verginica Barbu Mititelu 1
- Lucie Barque 1
- Caroline Brun 1
- Matthieu Constant 1
- Laurence Danlos 1
- Nicolas Dessaigne 1
- Roberto Díaz Hernández 1
- Maud Ehrmann 1
- Louis Estève 1
- Victoria Fendel 1
- Aggeliki Fotopoulou 1
- Baptiste Gaillard 1
- Polona Gantar 1
- Voula Giouli 1
- Bruno Guillaume 1
- Sylvie Guillemin-Lanne 1
- Guillaume Jacquet 1
- Olha Kanishcheva 1
- Aaron Kaplan 1
- Cvetana Krstev 1
- Marianna Kucharski 1
- Eric Laporte 1
- Chaya Liebeskind 1
- Irina Lobzhanidze 1
- Stella Markantonatou 1
- Aleksandra M. Marković 1
- Claude Martineau 1
- Cédric Messiant 1
- Aurélie Migeotte 1
- Gunta Nešpore-Bērzkalne 1
- Aakanksha Padhye 1
- Adriana Silvina Pagano 1
- Quentin Pradet 1
- Mehrnoush Shamsfard 1
- Ranka Stankovic 1
- Sara Stymne 1
- Vahide Tajalli 1
- Carole Tiberius 1
- Jaka Čibej 1