Y a-t-il une taille optimale pour les règles de successions intervenant dans l’étiquetage grammatical ? (Is there an optimal n for n-grams used in part-of-speech tagging?)

Fathi Debili, Emna Souissi


Abstract
La quasi-totalité des étiqueteurs grammaticaux mettent en oeuvre des règles qui portent sur les successions ou collocations permises de deux ou trois catégories grammaticales. Leurs performances s’établissent à hauteur de 96% de mots correctement étiquetés, et à moins de 57% de phrases correctement étiquetées. Ces règles binaires et ternaires ne représentent qu’une fraction du total des règles de succession que l’on peut extraire à partir des phrases d’un corpus d’apprentissage, alors même que la majeure partie des phrases (plus de 98% d’entre elles) ont une taille supérieure à 3 mots. Cela signifie que la plupart des phrases sont analysées au moyen de règles reconstituées ou simulées à partir de règles plus courtes, ternaires en l’occurrence dans le meilleur des cas. Nous montrons que ces règles simulées sont majoritairement agrammaticales, et que l’avantage inférentiel qu’apporte le chaînage de règles courtes pour parer au manque d’apprentissage, plus marqué pour les règles plus longues, est largement neutralisé par la permissivité de ce processus dont toutes sortes de poids, scores ou probabilités ne réussissent pas à en hiérarchiser la production afin d’y distinguer le grammatical de l’agrammatical. Force est donc de reconsidérer les règles de taille supérieure à 3, lesquelles, il y a une trentaine d’années, avaient été d’emblée écartées pour des raisons essentiellement liées à la puissance des machines d’alors, et à l’insuffisance des corpus d’apprentissage. Mais si l’on admet qu’il faille désormais étendre la taille des règles de succession, la question se pose de savoir jusqu’à quelle limite, et pour quel bénéfice. Car l’on ne saurait non plus plaider pour une portée des règles aussi longue que les plus longues phrases auxquelles elles sont susceptibles d’être appliquées. Autrement dit, y a-t-il une taille optimale des règles qui soit suffisamment petite pour que leur apprentissage puisse converger, mais suffisamment longue pour que tout chaînage de telles règles pour embrasser les phrases de taille supérieure soit grammatical. La conséquence heureuse étant que poids, scores et probabilités ne seraient plus invoqués que pour choisir entre successions d’étiquettes toutes également grammaticales, et non pour éliminer en outre les successions agrammaticales. Cette taille semble exister. Nous montrons qu’au moyen d’algorithmes relativement simples l’on peut assez précisément la déterminer. Qu’elle se situe, compte tenu de nos corpus, aux alentours de 12 pour le français, de 10 pour l’arabe, et de 10 pour l’anglais. Qu’elle est donc en particulier inférieure à la taille moyenne des phrases, quelle que soit la langue considérée.
Anthology ID:
2005.jeptalnrecital-long.37
Volume:
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2005
Address:
Dourdan, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
361–370
Language:
French
URL:
https://aclanthology.org/2005.jeptalnrecital-long.37
DOI:
Bibkey:
Cite (ACL):
Fathi Debili and Emna Souissi. 2005. Y a-t-il une taille optimale pour les règles de successions intervenant dans l’étiquetage grammatical ? (Is there an optimal n for n-grams used in part-of-speech tagging?). In Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 361–370, Dourdan, France. ATALA.
Cite (Informal):
Y a-t-il une taille optimale pour les règles de successions intervenant dans l’étiquetage grammatical ? (Is there an optimal n for n-grams used in part-of-speech tagging?) (Debili & Souissi, JEP/TALN/RECITAL 2005)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingestion-script-update/2005.jeptalnrecital-long.37.pdf