2009
pdf
abs
Quels attributs discriminants pour une analyse syntaxique par classification de textes en langue arabe ?
Fériel Ben Fraj
|
Chiraz Ben Othmane Zribi
|
Mohamed Ben Ahmed
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Dans le cadre dune approche déterministe et incrémentale danalyse syntaxique par classification de textes en langue arabe, nous avons prévu de prendre en considération un ensemble varié dattributs discriminants afin de mieux assister la procédure de classification dans ses prises de décisions à travers les différentes étapes danalyse. Ainsi, en plus des attributs morpho-syntaxiques du mot en cours danalyse et des informations contextuelles des mots lavoisinant, nous avons ajouté des informations compositionnelles extraites du fragment de larbre syntaxique déjà construit lors de létape précédente de lanalyse en cours. Ce papier présente notre approche danalyse syntaxique par classification et vise lexposition dune justification expérimentale de lapport de chaque type dattributs discriminants et spécialement ceux compositionnels dans ladite analyse syntaxique.
2007
pdf
abs
Un analyseur hybride pour la détection et la correction des erreurs cachées sémantiques en langue arabe
Chiraz Ben Othmane Zribi
|
Hanène Mejri
|
Mohamed Ben Ahmed
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Cet article s’intéresse au problème de la détection et de la correction des erreurs cachées sémantiques dans les textes arabes. Ce sont des erreurs orthographiques produisant des mots lexicalement valides mais invalides sémantiquement. Nous commençons par décrire le type d’erreur sémantique auquel nous nous intéressons. Nous exposons par la suite l’approche adoptée qui se base sur la combinaison de plusieurs méthodes, tout en décrivant chacune de ces méthodes. Puis, nous évoquons le contexte du travail qui nous a mené au choix de l’architecture multi-agent pour l’implémentation de notre système. Nous présentons et commentons vers la fin les résultats de l’évaluation dudit système.
pdf
abs
Évaluation des performances d’un modèle de langage stochastique pour la compréhension de la parole arabe spontanée
Anis Zouaghi
|
Mounir Zrigui
|
Mohamed Ben Ahmed
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Les modèles de Markov cachés (HMM : Hidden Markov Models) (Baum et al., 1970), sont très utilisés en reconnaissance de la parole et depuis quelques années en compréhension de la parole spontanée latine telle que le français ou l’anglais. Dans cet article, nous proposons d’utiliser et d’évaluer la performance de ce type de modèle pour l’interprétation sémantique de la parole arabe spontanée. Les résultats obtenus sont satisfaisants, nous avons atteint un taux d’erreur de l’ordre de 9,9% en employant un HMM à un seul niveau, avec des probabilités tri_grammes de transitions.
2006
pdf
abs
L’influence du contexte sur la compréhension de la parole arabe spontanée
Anis Zouaghi
|
Mounir Zrigui
|
Mohamed Ben Ahmed
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Notre travail s’intègre dans le cadre du projet intitulé « Oréodule » : un système de reconnaissance, de traduction et de synthèse de la langue arabe. L’objectif de cet article est d’essayer d’améliorer le modèle probabiliste sur lequel est basé notre décodeur sémantique de la parole arabe spontanée. Pour atteindre cet objectif, nous avons décidé de tester l’influence de l’utilisation du contexte pertinent, et de l’intégration de différents types de données contextuelles sur la performance du décodeur sémantique employé. Les résultats sont satisfaisants.
pdf
abs
Calcul du sens des mots arabes ambigus
Anis Zouaghi
|
Mounir Zrigui
|
Mohamed Ben Ahmed
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)
Nous présentons dans cet article un analyseur sémantique pour la langue arabe. Cet analyseur contribue à la sélection du sens adéquat parmi l’ensemble des sens possibles que peut recevoir un mot hors contexte. Pour atteindre cet objectif, nous proposons un modèle vectoriel qui permet de lever les ambiguïtés locales au niveau de la phrase et celles relevant du domaine. Ce modèle est inspiré des modèles vectoriels très utilisés dans le domaine de la recherche documentaire.
2005
pdf
abs
Un système Multi-Agent pour la détection et la correction des erreurs cachées en langue Arabe
Chiraz Ben Othmane Zribi
|
Fériel Ben Fraj
|
Mohamed Ben Ahmed
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Cet article s’intéresse au problème des erreurs orthographiques produisant des mots lexicalement corrects dans des textes en langue arabe. Après la description de l’influence des spécificités de la langue arabe sur l’augmentation du risque de commettre ces fautes cachées, nous proposons une classification hiérarchique de ces erreurs en deux grandes catégories ; à savoir syntaxique et sémantique. Nous présentons, également, l’architecture multi-agent que nous avons adoptée pour la détection et la correction des erreurs cachées en textes arabes. Nous examinons alors, les comportements sociaux des agents au sein de leurs organisations respectives et de leur environnement. Nous exposons vers la fin la mise en place et l’évaluation du système réalisé.
pdf
abs
Un système de génération automatique de dictionnaires linguistiques de l’arabe
Ahmed Haddad
|
Mounir Zrigui
|
Mohamed Ben Ahmed
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
L’objectif de cet article est la présentation d’un système de génération automatique de dictionnaires électroniques de la langue arabe classique, développé au sein du laboratoire RIADI (unité de Monastir). Ce système entre dans le cadre du projet “oreillodule”: un système embarqué de synthèse, traduction et reconnaissance de la parole arabe. Dans cet article, nous présenterons, les différentes étapes de réalisation, et notamment la génération automatique de ces dictionnaires se basant sur une théorie originale : les Conditions de Structures Morphématiques (CSM), et les matrices lexicales.
pdf
abs
Un système de lissage linéaire pour la synthèse de la parole arabe : Discussion des résultats obtenus
Tahar Saidane
|
Mounir Zrigui
|
Mohamed Ben Ahmed
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (articles courts)
Notre article s’intègre dans le cadre du projet intitulé “Oréodule” : un système embarqué temps réel de reconnaissance, de traduction et de synthèse de la parole. L’objet de notre intérêt dans cet article est la présentation de notre système de synthèse hybride de la parole arabe. Nous présenterons, dans ce papier, les différents modules et les différents choix techniques de notre système de synthèse hybride par concaténation de polyphèmes. Nous détaillerons également les règles de transcription et leurs effets sur le traitement linguistique, les règles de syllabation et leurs impacts sur le coût (temps et difficulté) de réalisation du module acoustique et nous poursuivrons par l’exposé de nos choix au niveau du module de concaténation. Nous décrirons le module de lissage, un traitement acoustique, post concaténation, nécessaire à l’amélioration de la qualité de la voix synthétisée. Enfin, nous présenterons les résultats de l’étude statistique de compréhension, réalisée sur un corpus.
pdf
abs
Un étiqueteur sémantique des énoncés en langue arabe
Anis Zouaghi
|
Mounir Zrigui
|
Mohamed Ben Ahmed
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (articles courts)
Notre article s’intègre dans le cadre du projet intitulé Oréodule: un système de reconnaissance, de traduction et de synthèse de la parole spontanée. L’objectif de cet article est de présenter un modèle d’étiquetage probabiliste, selon une approche componentielle et sélective. Cette approche ne considère que les éléments de l’énoncé porteurs de sens. La signification de chaque mot est représentée par un ensemble de traits sémantiques Ts. Ce modèle participe au choix des Ts candidats lors du décodage sémantique d’un énoncé.
2004
pdf
abs
La Transcription Orthographique-Phonetique De La Langue Arabe
Tahar Saidane
|
Mounir Zrigui
|
Mohamed Ben Ahmed
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)
Notre article présente les composants nécessaires à la synthèse de la parole arabe. Nous nous attarderons sur la transcription graphème phonème, étape primordiale pour l’élaboration d’un système de synthèse d’une qualité acceptable. Nous présenterons ensuite quelques-unes des règles utilisées pour la réalisation de notre système de traitement phonétique. Ces règles sont, pour notre système, stockées dans une base de données et sont parcourues plusieurs fois lors de la transcription.
2003
pdf
abs
Le contexte au service de la correction des graphies fautives arabes
Chiraz Ben Othmane Zribi
|
Mohamed Ben Ahmed
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Les mots arabes sont lexicalement beaucoup plus proches les uns des autres que les mots français et anglais. Cette proximité a pour effet un grand nombre de propositions à la correction d’une forme erronée arabe. Nous proposons dans cet article une méthode qui prend en considération le contexte de l’erreur pour éliminer certaines propositions données par le correcteur. Le contexte de l’erreur sera dans un premier temps les mots voisinant l’erreur et s’étendra jusqu’à l’ensemble des mots du texte contenant l’erreur. Ayant été testée sur un corpus textuel contenant des erreurs réelles, la méthode que nous proposons aura permis de réduire le nombre moyen de propositions d’environ 75% (de 16,8 à 3,98 propositions en moyenne).