@inproceedings{debili-souissi-2005-y,
title = "{Y} a-t-il une taille optimale pour les r{\`e}gles de successions intervenant dans l'{\'e}tiquetage grammatical ? (Is there an optimal n for n-grams used in part-of-speech tagging?)",
author = "Debili, Fathi and
Souissi, Emna",
editor = "Jardino, Mich{\`e}le",
booktitle = "Actes de la 12{\`e}me conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Articles longs",
month = jun,
year = "2005",
address = "Dourdan, France",
publisher = "ATALA",
url = "https://preview.aclanthology.org/jlcl-multiple-ingestion/2005.jeptalnrecital-long.37/",
pages = "361--370",
language = "fra",
abstract = "La quasi-totalit{\'e} des {\'e}tiqueteurs grammaticaux mettent en oeuvre des r{\`e}gles qui portent sur les successions ou collocations permises de deux ou trois cat{\'e}gories grammaticales. Leurs performances s'{\'e}tablissent {\`a} hauteur de 96{\%} de mots correctement {\'e}tiquet{\'e}s, et {\`a} moins de 57{\%} de phrases correctement {\'e}tiquet{\'e}es. Ces r{\`e}gles binaires et ternaires ne repr{\'e}sentent qu`une fraction du total des r{\`e}gles de succession que l`on peut extraire {\`a} partir des phrases d`un corpus d`apprentissage, alors m{\^e}me que la majeure partie des phrases (plus de 98{\%} d`entre elles) ont une taille sup{\'e}rieure {\`a} 3 mots. Cela signifie que la plupart des phrases sont analys{\'e}es au moyen de r{\`e}gles reconstitu{\'e}es ou simul{\'e}es {\`a} partir de r{\`e}gles plus courtes, ternaires en l`occurrence dans le meilleur des cas. Nous montrons que ces r{\`e}gles simul{\'e}es sont majoritairement agrammaticales, et que l`avantage inf{\'e}rentiel qu`apporte le cha{\^i}nage de r{\`e}gles courtes pour parer au manque d`apprentissage, plus marqu{\'e} pour les r{\`e}gles plus longues, est largement neutralis{\'e} par la permissivit{\'e} de ce processus dont toutes sortes de poids, scores ou probabilit{\'e}s ne r{\'e}ussissent pas {\`a} en hi{\'e}rarchiser la production afin d`y distinguer le grammatical de l`agrammatical. Force est donc de reconsid{\'e}rer les r{\`e}gles de taille sup{\'e}rieure {\`a} 3, lesquelles, il y a une trentaine d`ann{\'e}es, avaient {\'e}t{\'e} d`embl{\'e}e {\'e}cart{\'e}es pour des raisons essentiellement li{\'e}es {\`a} la puissance des machines d`alors, et {\`a} l`insuffisance des corpus d`apprentissage. Mais si l`on admet qu`il faille d{\'e}sormais {\'e}tendre la taille des r{\`e}gles de succession, la question se pose de savoir jusqu'{\`a} quelle limite, et pour quel b{\'e}n{\'e}fice. Car l`on ne saurait non plus plaider pour une port{\'e}e des r{\`e}gles aussi longue que les plus longues phrases auxquelles elles sont susceptibles d'{\^e}tre appliqu{\'e}es. Autrement dit, y a-t-il une taille optimale des r{\`e}gles qui soit suffisamment petite pour que leur apprentissage puisse converger, mais suffisamment longue pour que tout cha{\^i}nage de telles r{\`e}gles pour embrasser les phrases de taille sup{\'e}rieure soit grammatical. La cons{\'e}quence heureuse {\'e}tant que poids, scores et probabilit{\'e}s ne seraient plus invoqu{\'e}s que pour choisir entre successions d'{\'e}tiquettes toutes {\'e}galement grammaticales, et non pour {\'e}liminer en outre les successions agrammaticales. Cette taille semble exister. Nous montrons qu`au moyen d`algorithmes relativement simples l`on peut assez pr{\'e}cis{\'e}ment la d{\'e}terminer. Qu`elle se situe, compte tenu de nos corpus, aux alentours de 12 pour le fran{\c{c}}ais, de 10 pour l`arabe, et de 10 pour l`anglais. Qu`elle est donc en particulier inf{\'e}rieure {\`a} la taille moyenne des phrases, quelle que soit la langue consid{\'e}r{\'e}e."
}
Markdown (Informal)
[Y a-t-il une taille optimale pour les règles de successions intervenant dans l’étiquetage grammatical ? (Is there an optimal n for n-grams used in part-of-speech tagging?)](https://preview.aclanthology.org/jlcl-multiple-ingestion/2005.jeptalnrecital-long.37/) (Debili & Souissi, JEP/TALN/RECITAL 2005)
ACL