2018
pdf
Un état de l’art du traitement automatique du dialecte tunisien [Natural language processing of the Tunisian dialect: a state of the art]
Jihene Younes
|
Emna Souissi
|
Hadhemi Achour
|
Ahmed Ferchichi
Traitement Automatique des Langues, Volume 59, Numéro 3 : Traitement automatique des langues peu dotées [NLP for Under-Resourced Languages]
2007
pdf
abs
Analyse automatique vs analyse interactive : un cercle vertueux pour la voyellation, l’étiquetage et la lemmatisation de l’arabe
Fathi Debili
|
Zied Ben Tahar
|
Emna Souissi
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Comment produire de façon massive des textes annotés dans des conditions d’efficacité, de reproductibilité et de coût optimales ? Plutôt que de corriger les sorties d’analyse automatique moyennant des outils d’éditions éventuellement dédiés, ainsi qu’il estcommunément préconisé, nous proposons de recourir à des outils d’analyse interactive où la correction manuelle est au fur et à mesure prise en compte par l’analyse automatique. Posant le problème de l’évaluation de ces outils interactifs et du rendement de leur ergonomie linguistique, et proposant pour cela une métrique fondée sur le calcul du coût qu’exigent ces corrections exprimé en nombre de manipulations (frappe au clavier, clic de souris, etc.), nous montrons, au travers d’un protocole expérimental simple orienté vers la voyellation, l’étiquetage et la lemmatisation de l’arabe, que paradoxalement, les meilleures performances interactives d’un système ne sont pas toujours corrélées à ses meilleures performances automatiques. Autrement dit, que le comportement linguistique automatique le plus performant n’est pas toujours celui qui assure, dès lors qu’il y a contributions manuelles, le meilleur rendement interactif.
2005
pdf
abs
Y a-t-il une taille optimale pour les règles de successions intervenant dans l’étiquetage grammatical ? (Is there an optimal n for n-grams used in part-of-speech tagging?)
Fathi Debili
|
Emna Souissi
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
La quasi-totalité des étiqueteurs grammaticaux mettent en oeuvre des règles qui portent sur les successions ou collocations permises de deux ou trois catégories grammaticales. Leurs performances s’établissent à hauteur de 96% de mots correctement étiquetés, et à moins de 57% de phrases correctement étiquetées. Ces règles binaires et ternaires ne représentent qu’une fraction du total des règles de succession que l’on peut extraire à partir des phrases d’un corpus d’apprentissage, alors même que la majeure partie des phrases (plus de 98% d’entre elles) ont une taille supérieure à 3 mots. Cela signifie que la plupart des phrases sont analysées au moyen de règles reconstituées ou simulées à partir de règles plus courtes, ternaires en l’occurrence dans le meilleur des cas. Nous montrons que ces règles simulées sont majoritairement agrammaticales, et que l’avantage inférentiel qu’apporte le chaînage de règles courtes pour parer au manque d’apprentissage, plus marqué pour les règles plus longues, est largement neutralisé par la permissivité de ce processus dont toutes sortes de poids, scores ou probabilités ne réussissent pas à en hiérarchiser la production afin d’y distinguer le grammatical de l’agrammatical. Force est donc de reconsidérer les règles de taille supérieure à 3, lesquelles, il y a une trentaine d’années, avaient été d’emblée écartées pour des raisons essentiellement liées à la puissance des machines d’alors, et à l’insuffisance des corpus d’apprentissage. Mais si l’on admet qu’il faille désormais étendre la taille des règles de succession, la question se pose de savoir jusqu’à quelle limite, et pour quel bénéfice. Car l’on ne saurait non plus plaider pour une portée des règles aussi longue que les plus longues phrases auxquelles elles sont susceptibles d’être appliquées. Autrement dit, y a-t-il une taille optimale des règles qui soit suffisamment petite pour que leur apprentissage puisse converger, mais suffisamment longue pour que tout chaînage de telles règles pour embrasser les phrases de taille supérieure soit grammatical. La conséquence heureuse étant que poids, scores et probabilités ne seraient plus invoqués que pour choisir entre successions d’étiquettes toutes également grammaticales, et non pour éliminer en outre les successions agrammaticales. Cette taille semble exister. Nous montrons qu’au moyen d’algorithmes relativement simples l’on peut assez précisément la déterminer. Qu’elle se situe, compte tenu de nos corpus, aux alentours de 12 pour le français, de 10 pour l’arabe, et de 10 pour l’anglais. Qu’elle est donc en particulier inférieure à la taille moyenne des phrases, quelle que soit la langue considérée.