2019
pdf
abs
Q-learning pour la résolution des anaphores pronominales en langue arabe (Q-learning for pronominal anaphora resolution in Arabic texts)
Saoussen Mathlouthi Bouzid
|
Chiraz Ben Othmane Zribi
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts
La résolution d’anaphores est une tâche fondamentale pour la plupart des applications du TALN. Cette tâche reste un problème difficile qui nécessite plusieurs sources de connaissances et des techniques d’apprentissage efficaces, notamment pour la langue arabe. Cet article présente une nouvelle approche de résolution d’anaphores pronominales dans les textes arabes en se basant sur une méthode d’Apprentissage par Renforcement AR qui utilise l’algorithme Q-learning. Le processus de résolution comporte une étape d’identification des pronoms et des antécédents candidats et une autre de résolution. L’algorithme Q-learning permet d’apprendre dans un environnement dynamique et incertain. Il cherche à optimiser pour chaque pronom anaphorique, une séquence de choix de critères pour évaluer les antécédents et sélectionner le meilleur. Le système de résolution est évalué sur des textes littéraires, des textes journalistiques et des manuels techniques. Le taux de précision atteint jusqu’à 77,14%.
2018
pdf
abs
Interface syntaxe-sémantique au moyen d’une grammaire d’arbres adjoints pour l’étiquetage sémantique de l’arabe (Syntax-semantic interface using Tree-adjoining grammar for Arabic semantic labeling)
Cherifa Ben Khelil
|
Chiraz Ben Othmane Zribi
|
Denys Duchier
|
Yannick Parmentier
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
Dans une grammaire formelle, le lien entre l’information sémantique et sa structure syntaxique correspondante peut être établi en utilisant une interface syntaxe/sémantique qui permettra la construction du sens de la phrase. L’étiquetage de rôles sémantiques aide à réaliser cette tâche en associant automatiquement des rôles sémantiques à chaque argument du prédicat d’une phrase. Dans ce papier, nous présentons une nouvelle approche qui permet la construction d’une telle interface pour une grammaire d’arbres adjoints de l’arabe. Cette grammaire a été générée semi automatiquement à partir d’une méta-grammaire. Nous détaillons le processus d’interfaçage entre le niveau syntaxique et le niveau sémantique moyennant la sémantique des cadres et comment avons-nous procédé à l’étiquetage de rôles sémantiques en utilisant la ressource lexicale ArabicVerbNet.
pdf
abs
Word2Vec vs LSA pour la détection des erreurs orthographiques produisant un dérèglement sémantique en arabe (Word2Vec vs LSA for detecting semantic errors in Arabic language)
Chiraz Ben Othmane Zribi
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
Les mots en arabe sont très proches lexicalement les uns des autres. La probabilité de tomber sur un mot correct en commettant une erreur typographique est plus importante que pour le français ou pour l’anglais. Nous nous intéressons dans cet article à détecter les erreurs orthographiques plus précisément, celles générant des mots lexicalement corrects mais causant un dérèglement sémantique au niveau de la phrase. Nous décrivons et comparons deux méthodes se basant sur la représentation vectorielle du sens des mots. La première méthode utilise l’analyse sémantique latente (LSA). La seconde s’appuie sur le modèle Word2Vec et plus particulièrement l’architecture Skip-Gram. Les expérimentations ont montré que Skip-Gram surpasse LSA.
2009
pdf
abs
Quels attributs discriminants pour une analyse syntaxique par classification de textes en langue arabe ?
Fériel Ben Fraj
|
Chiraz Ben Othmane Zribi
|
Mohamed Ben Ahmed
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Dans le cadre dune approche déterministe et incrémentale danalyse syntaxique par classification de textes en langue arabe, nous avons prévu de prendre en considération un ensemble varié dattributs discriminants afin de mieux assister la procédure de classification dans ses prises de décisions à travers les différentes étapes danalyse. Ainsi, en plus des attributs morpho-syntaxiques du mot en cours danalyse et des informations contextuelles des mots lavoisinant, nous avons ajouté des informations compositionnelles extraites du fragment de larbre syntaxique déjà construit lors de létape précédente de lanalyse en cours. Ce papier présente notre approche danalyse syntaxique par classification et vise lexposition dune justification expérimentale de lapport de chaque type dattributs discriminants et spécialement ceux compositionnels dans ladite analyse syntaxique.
2007
pdf
abs
Un analyseur hybride pour la détection et la correction des erreurs cachées sémantiques en langue arabe
Chiraz Ben Othmane Zribi
|
Hanène Mejri
|
Mohamed Ben Ahmed
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Cet article s’intéresse au problème de la détection et de la correction des erreurs cachées sémantiques dans les textes arabes. Ce sont des erreurs orthographiques produisant des mots lexicalement valides mais invalides sémantiquement. Nous commençons par décrire le type d’erreur sémantique auquel nous nous intéressons. Nous exposons par la suite l’approche adoptée qui se base sur la combinaison de plusieurs méthodes, tout en décrivant chacune de ces méthodes. Puis, nous évoquons le contexte du travail qui nous a mené au choix de l’architecture multi-agent pour l’implémentation de notre système. Nous présentons et commentons vers la fin les résultats de l’évaluation dudit système.
2005
pdf
abs
Un système Multi-Agent pour la détection et la correction des erreurs cachées en langue Arabe
Chiraz Ben Othmane Zribi
|
Fériel Ben Fraj
|
Mohamed Ben Ahmed
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Cet article s’intéresse au problème des erreurs orthographiques produisant des mots lexicalement corrects dans des textes en langue arabe. Après la description de l’influence des spécificités de la langue arabe sur l’augmentation du risque de commettre ces fautes cachées, nous proposons une classification hiérarchique de ces erreurs en deux grandes catégories ; à savoir syntaxique et sémantique. Nous présentons, également, l’architecture multi-agent que nous avons adoptée pour la détection et la correction des erreurs cachées en textes arabes. Nous examinons alors, les comportements sociaux des agents au sein de leurs organisations respectives et de leur environnement. Nous exposons vers la fin la mise en place et l’évaluation du système réalisé.
2003
pdf
abs
Le contexte au service de la correction des graphies fautives arabes
Chiraz Ben Othmane Zribi
|
Mohamed Ben Ahmed
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Les mots arabes sont lexicalement beaucoup plus proches les uns des autres que les mots français et anglais. Cette proximité a pour effet un grand nombre de propositions à la correction d’une forme erronée arabe. Nous proposons dans cet article une méthode qui prend en considération le contexte de l’erreur pour éliminer certaines propositions données par le correcteur. Le contexte de l’erreur sera dans un premier temps les mots voisinant l’erreur et s’étendra jusqu’à l’ensemble des mots du texte contenant l’erreur. Ayant été testée sur un corpus textuel contenant des erreurs réelles, la méthode que nous proposons aura permis de réduire le nombre moyen de propositions d’environ 75% (de 16,8 à 3,98 propositions en moyenne).