@inproceedings{vergne-2009-un,
title = "Un chunker multilingue endog{\`e}ne",
author = "Vergne, Jacques",
editor = "Nazarenko, Adeline and
Poibeau, Thierry",
booktitle = "Actes de la 16{\`e}me conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. D{\'e}monstrations",
month = jun,
year = "2009",
address = "Senlis, France",
publisher = "ATALA",
url = "https://preview.aclanthology.org/fix-sig-urls/2009.jeptalnrecital-demonstration.14/",
pages = "40--42",
language = "fra",
abstract = "Le chunking consiste {\`a} segmenter un texte en chunks, segments sous-phrastiques qu{'}Abney a d{\'e}fini approximativement comme des groupes accentuels. Traditionnellement, le chunking utilise des ressources monolingues, le plus souvent exhaustives, quelquefois partielles : des mots grammaticaux et des ponctuations, qui marquent souvent des d{\'e}buts et fins de chunk. Mais cette m{\'e}thode, si l{'}on veut l'{\'e}tendre {\`a} de nombreuses langues, n{\'e}cessite de multiplier les ressources monolingues. Nous pr{\'e}sentons une nouvelle m{\'e}thode : le chunking endog{\`e}ne, qui n{'}utilise aucune ressource hormis le texte analys{\'e} lui-m{\^e}me. Cette m{\'e}thode prolonge les travaux de Zipf : la minimisation de l{'}effort de communication conduit les locuteurs {\`a} raccourcir les mots fr{\'e}quents. On peut alors caract{\'e}riser un chunk comme {\'e}tant la p{\'e}riode des fonctions p{\'e}riodiques correll{\'e}es longueur et effectif des mots sur l{'}axe syntagmatique. Cette m{\'e}thode originale pr{\'e}sente l{'}avantage de s{'}appliquer {\`a} un grand nombre de langues d'{\'e}criture alphab{\'e}tique, avec le m{\^e}me algorithme, sans aucune ressource."
}
Markdown (Informal)
[Un chunker multilingue endogène](https://preview.aclanthology.org/fix-sig-urls/2009.jeptalnrecital-demonstration.14/) (Vergne, JEP/TALN/RECITAL 2009)
ACL
- Jacques Vergne. 2009. Un chunker multilingue endogène. In Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations, pages 40–42, Senlis, France. ATALA.