Wigdan Mekki


2011

pdf
Évaluation de G-LexAr pour la traduction automatique statistique (Evaluation of G-Lexar for statistical machine translation)
Wigdan Mekki | Julien Gosme | Fathi Debili | Yves Lepage | Nadine Lucas
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

G-LexAr est un analyseur morphologique de l’arabe qui a récemment reçu des améliorations substantielles. Cet article propose une évaluation de cet analyseur en tant qu’outil de pré-traitement pour la traduction automatique statistique, ce dont il n’a encore jamais fait l’objet. Nous étudions l’impact des différentes formes proposées par son analyse (voyellation, lemmatisation et segmentation) sur un système de traduction arabe-anglais, ainsi que l’impact de la combinaison de ces formes. Nos expériences montrent que l’utilisation séparée de chacune de ces formes n’a que peu d’influence sur la qualité des traductions obtenues, tandis que leur combinaison y contribue de façon très bénéfique.

2010

pdf
The GREYC/LLACAN machine translation systems for the IWSLT 2010 campaign
Julien Gosme | Wigdan Mekki | Fathi Debili | Yves Lepage | Nadine Lucas
Proceedings of the 7th International Workshop on Spoken Language Translation: Evaluation Campaign

In this paper we explore the contribution of the use of two Arabic morphological analyzers as preprocessing tools for statistical machine translation. Similar investigations have already been reported for morphologically rich languages like German, Turkish and Arabic. Here, we focus on the case of the Arabic language and mainly discuss the use of the G-LexAr analyzer. A preliminary experiment has been designed to choose the most promising translation system among the 3 G-LexAr-based systems, we concluded that the systems are equivalent. Nevertheless, we decided to use the lemmatized output of G-LexAr and use its translations as primary run for the BTEC AE track. The results showed that G-LexAr outputs degrades translation compared to the basic SMT system trained on the un-analyzed corpus.