Jeongwoo Kang


2025

pdf bib
Reassessing Graph Linearization for Sequence-to-sequence AMR Parsing: On the Advantages and Limitations of Triple-Based
Jeongwoo Kang | Maximin Coavoux | Didier Schwab | Cédric Lopez
The Sixth Workshop on Insights from Negative Results in NLP

Sequence-to-sequence models are widely used to train Abstract Meaning Representation (Banarescu et al.,2013, AMR) parsers. To train such models, AMR graphs have to be linearized into a one-line text format. While Penman encoding is widely used for this purpose, we argue that it has limitations: 1) for deep graphs, some closely related nodes are located far apart in the linearized text 2) Penman’s tree-based encoding necessitates inverse roles to handle node re-entrancy, doubling the number of relation types to predict. To address these issues, we propose a triple-based linearization method and compare its efficiency by training an AMR parser with both approaches. Although triple is well suited to represent a graph, our results show that it does not yet improve performance on deeper or longer graphs. It suggests room for improvement in its design to better compete with Penman’s concise representation and explicit encoding of a nested graph structure.

2024

pdf bib
Should Cross-Lingual AMR Parsing go Meta? An Empirical Assessment of Meta-Learning and Joint Learning AMR Parsing
Jeongwoo Kang | Maximin Coavoux | Cédric Lopez | Didier Schwab
Findings of the Association for Computational Linguistics: EMNLP 2024

Cross-lingual AMR parsing is the task of predicting AMR graphs in a target language when training data is available only in a source language. Due to the small size of AMR training data and evaluation data, cross-lingual AMR parsing has only been explored in a small set of languages such as English, Spanish, German, Chinese, and Italian. Taking inspiration from Langedijk et al. (2022), who apply meta-learning to tackle cross-lingual syntactic parsing, we investigate the use of meta-learning for cross-lingual AMR parsing. We evaluate our models in k-shot scenarios (including 0-shot) and assess their effectiveness in Croatian, Farsi, Korean, Chinese, and French. Notably, Korean and Croatian test sets are developed as part of our work, based on the existing The Little Prince English AMR corpus, and made publicly available. We empirically study our method by comparing it to classical joint learning. Our findings suggest that while the meta-learning model performs slightly better in 0-shot evaluation for certain languages, the performance gain is minimal or absent when k is higher than 0.

pdf bib
Méta-apprentissage pour l’analyse AMR translingue
Jeongwoo Kang | Maximin Coavoux | Cédric Lopez | Didier Schwab
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position

L’analyse AMR multilingue consiste à prédire des analyses sémantiques AMR dans une langue cible lorsque les données d’entraînement ne sont disponibles que dans une langue source. Cette tâche n’a été étudiée que pour un petit nombre de langues en raison du manque de données multilingues. En s’inspirant de Langedijk et al. (2022), qui appliquent le méta-apprentissage à l’analyse syntaxique en dépendances translingue, nous étudions le méta-apprentissage pour l’analyse AMR translingue. Nous évaluons nos modèles dans des scénarios zero-shot et few-shot en croate, en farsi, en coréen, en chinois et en français. En particulier, nous développons dans le cadre de cet article des données d’évaluation en coréen et en croate, à partir du corpus AMR anglais Le Petit Prince. Nous étudions empiriquement cette approche en la comparant à une méthode classique d’apprentissage conjoint.

2023

pdf bib
Analyse sémantique AMR pour le français par transfert translingue
Jeongwoo Kang | Maximin Coavoux | Didier Schwab | Cédric Lopez
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : travaux de recherche originaux -- articles courts

Abstract Meaning Representation (AMR) est un formalisme permettant de représenter la sémantique d’une phrase sous la forme d’un graphe, dont les nœuds sont des concepts sémantiques et les arcs des relations typées. Dans ce travail, nous construisons un analyseur AMR pour le français en étendant une méthode translingue zéro-ressource proposée par Procopio et al. (2021). Nous comparons l’utilisation d’un transfert bilingue à un transfert multi-cibles pour l’analyse sémantique AMR translingue. Nous construisons également des données d’évaluation pour l’AMR français. Nous présentons enfin les premiers résultats d’analyse AMR automatique pour le français. Selon le jeu de test utilisé, notre parseur AMR entraîné de manière zéro-ressource, c’est-à-dire sans données d’entraînement, obtient des scores Smatch qui se situent entre 54,2 et 66,0.