2024
pdf
abs
Lexicons Gain the Upper Hand in Arabic MWE Identification
Najet Hadj Mohamed
|
Agata Savary
|
Cherifa Ben Khelil
|
Jean-Yves Antoine
|
Iskandar Keskes
|
Lamia Hadrich-Belguith
Proceedings of the Joint Workshop on Multiword Expressions and Universal Dependencies (MWE-UD) @ LREC-COLING 2024
This paper highlights the importance of integrating MWE identification with the development of syntactic MWE lexicons. It suggests that lexicons with minimal morphosyntactic information can amplify current MWE-annotated datasets and refine identification strategies. To our knowledge, this work represents the first attempt to focus on both seen and unseen of VMWEs for Arabic. It also deals with the challenge of differentiating between literal and figurative interpretations of idiomatic expressions. The approach involves a dual-phase procedure: first projecting a VMWE lexicon onto a corpus to identify candidate occurrences, then disambiguating these occurrences to distinguish idiomatic from literal instances. Experiments outlined in the paper aim to assess the efficacy of this technique, utilizing a lexicon known as LEXAR and the “parseme-ar” corpus. The findings suggest that lexicon-driven strategies have the potential to refine MWE identification, particularly for unseen occurrences.
2023
pdf
abs
PARSEME corpus release 1.3
Agata Savary
|
Cherifa Ben Khelil
|
Carlos Ramisch
|
Voula Giouli
|
Verginica Barbu Mititelu
|
Najet Hadj Mohamed
|
Cvetana Krstev
|
Chaya Liebeskind
|
Hongzhi Xu
|
Sara Stymne
|
Tunga Güngör
|
Thomas Pickard
|
Bruno Guillaume
|
Eduard Bejček
|
Archna Bhatia
|
Marie Candito
|
Polona Gantar
|
Uxoa Iñurrieta
|
Albert Gatt
|
Jolanta Kovalevskaite
|
Timm Lichte
|
Nikola Ljubešić
|
Johanna Monti
|
Carla Parra Escartín
|
Mehrnoush Shamsfard
|
Ivelina Stoyanova
|
Veronika Vincze
|
Abigail Walsh
Proceedings of the 19th Workshop on Multiword Expressions (MWE 2023)
We present version 1.3 of the PARSEME multilingual corpus annotated with verbal multiword expressions. Since the previous version, new languages have joined the undertaking of creating such a resource, some of the already existing corpora have been enriched with new annotated texts, while others have been enhanced in various ways. The PARSEME multilingual corpus represents 26 languages now. All monolingual corpora therein use Universal Dependencies v.2 tagset. They are (re-)split observing the PARSEME v.1.2 standard, which puts impact on unseen VMWEs. With the current iteration, the corpus release process has been detached from shared tasks; instead, a process for continuous improvement and systematic releases has been introduced.
2022
pdf
abs
Annotation d’expressions polylexicales verbales en arabe : validation d’une procédure d’annotation multilingue (Annotating Verbal Multiword Expressions in Arabic : Assessing the Validity of a Multilingual)
Najet Hadj Mohamed
|
Cherifa Ben Khelil
|
Agata Savary
|
Iskander Keskes
|
Jean Yves Antoine
|
Lamia Hadrich Belguith
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Cet article décrit nos efforts pour étendre le projet PARSEME à l’arabe standard moderne. L’applicabilité du guide d’annotation de PARSEME a été testée en mesurant l’accord inter-annotateurs dès la première phase d’annotation. Un sous-ensemble de 1062 phrases du Prague Arabic Dependency Treebank (PADT) a été sélectionné et annoté indépendamment par deux locutrices natives arabes. Suite à leurs annotations, un nouveau corpus arabe avec plus de 1250 expressions polylexicales verbales (EPV) annotées a été construit.
pdf
abs
Annotating Verbal Multiword Expressions in Arabic: Assessing the Validity of a Multilingual Annotation Procedure
Najet Hadj Mohamed
|
Cherifa Ben Khelil
|
Agata Savary
|
Iskandar Keskes
|
Jean-Yves Antoine
|
Lamia Hadrich-Belguith
Proceedings of the Thirteenth Language Resources and Evaluation Conference
This paper describes our efforts to extend the PARSEME framework to Modern Standard Arabic. Theapplicability of the PARSEME guidelines was tested by measuring the inter-annotator agreement in theearly annotation stage. A subset of 1,062 sentences from the Prague Arabic Dependency Treebank PADTwas selected and annotated by two Arabic native speakers independently. Following their annotations, anew Arabic corpus with over 1,250 annotated VMWEs has been built. This corpus already exceeds thesmallest corpora of the PARSEME suite, and enables first observations. We discuss our annotation guide-line schema that shows full MWE annotation is realizable in Arabic where we get good inter-annotator agreement.
2018
pdf
abs
Interface syntaxe-sémantique au moyen d’une grammaire d’arbres adjoints pour l’étiquetage sémantique de l’arabe (Syntax-semantic interface using Tree-adjoining grammar for Arabic semantic labeling)
Cherifa Ben Khelil
|
Chiraz Ben Othmane Zribi
|
Denys Duchier
|
Yannick Parmentier
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
Dans une grammaire formelle, le lien entre l’information sémantique et sa structure syntaxique correspondante peut être établi en utilisant une interface syntaxe/sémantique qui permettra la construction du sens de la phrase. L’étiquetage de rôles sémantiques aide à réaliser cette tâche en associant automatiquement des rôles sémantiques à chaque argument du prédicat d’une phrase. Dans ce papier, nous présentons une nouvelle approche qui permet la construction d’une telle interface pour une grammaire d’arbres adjoints de l’arabe. Cette grammaire a été générée semi automatiquement à partir d’une méta-grammaire. Nous détaillons le processus d’interfaçage entre le niveau syntaxique et le niveau sémantique moyennant la sémantique des cadres et comment avons-nous procédé à l’étiquetage de rôles sémantiques en utilisant la ressource lexicale ArabicVerbNet.
2017
pdf
abs
Générer une grammaire d’arbres adjoints pour l’arabe à partir d’une méta-grammaire (Generate a tree adjoining grammar for Arabic from a meta-grammar)
Cherifa Ben Khelil
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. 19es REncontres jeunes Chercheurs en Informatique pour le TAL (RECITAL 2017)
La rareté des ressources numériques pour la langue arabe, telles que les grammaires et corpus, rend son traitement plus difficile que les autres langues naturelles. A ce jour il n’existe pas une grammaire formelle à large couverture de l’arabe. Dans ce papier, nous présentons une nouvelle approche qui facilite la description de l’arabe avec le formalisme des grammaires d’arbres adjoints en utilisant une méta-grammaire. Nous exposons les premiers résultats de notre grammaire ainsi que les problèmes rencontrés pour son évaluation.
2016
pdf
bib
ArabTAG: from a Handcrafted to a Semi-automatically Generated TAG
Chérifa Ben Khelil
|
Denys Duchier
|
Yannick Parmentier
|
Chiraz Zribi
|
Fériel Ben Fraj
Proceedings of the 12th International Workshop on Tree Adjoining Grammars and Related Formalisms (TAG+12)