Fathi Debili


2011

pdf
Évaluation de G-LexAr pour la traduction automatique statistique (Evaluation of G-Lexar for statistical machine translation)
Wigdan Mekki | Julien Gosme | Fathi Debili | Yves Lepage | Nadine Lucas
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

G-LexAr est un analyseur morphologique de l’arabe qui a récemment reçu des améliorations substantielles. Cet article propose une évaluation de cet analyseur en tant qu’outil de pré-traitement pour la traduction automatique statistique, ce dont il n’a encore jamais fait l’objet. Nous étudions l’impact des différentes formes proposées par son analyse (voyellation, lemmatisation et segmentation) sur un système de traduction arabe-anglais, ainsi que l’impact de la combinaison de ces formes. Nos expériences montrent que l’utilisation séparée de chacune de ces formes n’a que peu d’influence sur la qualité des traductions obtenues, tandis que leur combinaison y contribue de façon très bénéfique.

2010

pdf
The GREYC/LLACAN machine translation systems for the IWSLT 2010 campaign
Julien Gosme | Wigdan Mekki | Fathi Debili | Yves Lepage | Nadine Lucas
Proceedings of the 7th International Workshop on Spoken Language Translation: Evaluation Campaign

In this paper we explore the contribution of the use of two Arabic morphological analyzers as preprocessing tools for statistical machine translation. Similar investigations have already been reported for morphologically rich languages like German, Turkish and Arabic. Here, we focus on the case of the Arabic language and mainly discuss the use of the G-LexAr analyzer. A preliminary experiment has been designed to choose the most promising translation system among the 3 G-LexAr-based systems, we concluded that the systems are equivalent. Nevertheless, we decided to use the lemmatized output of G-LexAr and use its translations as primary run for the BTEC AE track. The results showed that G-LexAr outputs degrades translation compared to the basic SMT system trained on the un-analyzed corpus.

2007

pdf
Analyse automatique vs analyse interactive : un cercle vertueux pour la voyellation, l’étiquetage et la lemmatisation de l’arabe
Fathi Debili | Zied Ben Tahar | Emna Souissi
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Comment produire de façon massive des textes annotés dans des conditions d’efficacité, de reproductibilité et de coût optimales ? Plutôt que de corriger les sorties d’analyse automatique moyennant des outils d’éditions éventuellement dédiés, ainsi qu’il estcommunément préconisé, nous proposons de recourir à des outils d’analyse interactive où la correction manuelle est au fur et à mesure prise en compte par l’analyse automatique. Posant le problème de l’évaluation de ces outils interactifs et du rendement de leur ergonomie linguistique, et proposant pour cela une métrique fondée sur le calcul du coût qu’exigent ces corrections exprimé en nombre de manipulations (frappe au clavier, clic de souris, etc.), nous montrons, au travers d’un protocole expérimental simple orienté vers la voyellation, l’étiquetage et la lemmatisation de l’arabe, que paradoxalement, les meilleures performances interactives d’un système ne sont pas toujours corrélées à ses meilleures performances automatiques. Autrement dit, que le comportement linguistique automatique le plus performant n’est pas toujours celui qui assure, dès lors qu’il y a contributions manuelles, le meilleur rendement interactif.

2006

pdf
Exploiting text for extracting image processing resources
Gregory Grefenstette | Fathi Debili | Christian Fluhr | Svitlana Zinger
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)

Much everyday knowledge about physical aspects of objects does not exist as computer data, though such computer-based knowledge will be needed to communicate with next generation voice-commanded personal robots as well in other applications involving visual scene recognition. The largest attempt at manually creating common-sense knowledge, the CYC project, has not yet produced the information needed for these tasks. A new direction is needed, based on an automated approach to knowledge extraction. In this article we present our project to mine web text to find properties of objects that are not currently stored in computer readable form.

2005

pdf
Y a-t-il une taille optimale pour les règles de successions intervenant dans l’étiquetage grammatical ? (Is there an optimal n for n-grams used in part-of-speech tagging?)
Fathi Debili | Emna Souissi
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

La quasi-totalité des étiqueteurs grammaticaux mettent en oeuvre des règles qui portent sur les successions ou collocations permises de deux ou trois catégories grammaticales. Leurs performances s’établissent à hauteur de 96% de mots correctement étiquetés, et à moins de 57% de phrases correctement étiquetées. Ces règles binaires et ternaires ne représentent qu’une fraction du total des règles de succession que l’on peut extraire à partir des phrases d’un corpus d’apprentissage, alors même que la majeure partie des phrases (plus de 98% d’entre elles) ont une taille supérieure à 3 mots. Cela signifie que la plupart des phrases sont analysées au moyen de règles reconstituées ou simulées à partir de règles plus courtes, ternaires en l’occurrence dans le meilleur des cas. Nous montrons que ces règles simulées sont majoritairement agrammaticales, et que l’avantage inférentiel qu’apporte le chaînage de règles courtes pour parer au manque d’apprentissage, plus marqué pour les règles plus longues, est largement neutralisé par la permissivité de ce processus dont toutes sortes de poids, scores ou probabilités ne réussissent pas à en hiérarchiser la production afin d’y distinguer le grammatical de l’agrammatical. Force est donc de reconsidérer les règles de taille supérieure à 3, lesquelles, il y a une trentaine d’années, avaient été d’emblée écartées pour des raisons essentiellement liées à la puissance des machines d’alors, et à l’insuffisance des corpus d’apprentissage. Mais si l’on admet qu’il faille désormais étendre la taille des règles de succession, la question se pose de savoir jusqu’à quelle limite, et pour quel bénéfice. Car l’on ne saurait non plus plaider pour une portée des règles aussi longue que les plus longues phrases auxquelles elles sont susceptibles d’être appliquées. Autrement dit, y a-t-il une taille optimale des règles qui soit suffisamment petite pour que leur apprentissage puisse converger, mais suffisamment longue pour que tout chaînage de telles règles pour embrasser les phrases de taille supérieure soit grammatical. La conséquence heureuse étant que poids, scores et probabilités ne seraient plus invoqués que pour choisir entre successions d’étiquettes toutes également grammaticales, et non pour éliminer en outre les successions agrammaticales. Cette taille semble exister. Nous montrons qu’au moyen d’algorithmes relativement simples l’on peut assez précisément la déterminer. Qu’elle se situe, compte tenu de nos corpus, aux alentours de 12 pour le français, de 10 pour l’arabe, et de 10 pour l’anglais. Qu’elle est donc en particulier inférieure à la taille moyenne des phrases, quelle que soit la langue considérée.

1998

pdf
Etiquetage grammatical de l’arabe voyelle ou non
Fathi Debili | Emna Soussi
Computational Approaches to Semitic Languages

pdf
Voyellation automatique de l’arabe
Fathi Debili | Hadhemi Achour
Computational Approaches to Semitic Languages

1994

pdf
Using Syntactic Dependencies for Word Alignment
Fathi Debili | Elyes Sammouda | Adnane Zribi
Fourth Conference on Applied Natural Language Processing

1992

pdf
Aligning Sentences in Bilingual Texts French - English and French - Arabic
Fathi Debili | Elyes Sammouda
COLING 1992 Volume 2: The 14th International Conference on Computational Linguistics