@inproceedings{magistry-sagot-2011-segmentation,
title = "Segmentation et induction de lexique non-supervis{\'e}es du mandarin (Unsupervised segmentation and induction of mandarin lexicon)",
author = "Magistry, Pierre and
Sagot, Beno{\^i}t",
editor = "Lafourcade, Mathieu and
Prince, Violaine",
booktitle = "Actes de la 18e conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Articles longs",
month = jun,
year = "2011",
address = "Montpellier, France",
publisher = "ATALA",
url = "https://preview.aclanthology.org/fix-sig-urls/2011.jeptalnrecital-long.23/",
pages = "258--269",
language = "fra",
abstract = "Pour la plupart des langues utilisant l{'}alphabet latin, le d{\'e}coupage d{'}un texte selon les espaces et les symboles de ponctuation est une bonne approximation d{'}un d{\'e}coupage en unit{\'e}s lexicales. Bien que cette approximation cache de nombreuses difficult{\'e}s, elles sont sans comparaison avec celles que l{'}on rencontre lorsque l{'}on veut traiter des langues qui, comme le chinois mandarin, n{'}utilisent pas l{'}espace. Un grand nombre de syst{\`e}mes de segmentation ont {\'e}t{\'e} propos{\'e}s parmi lesquels certains adoptent une approche non-supervis{\'e}e motiv{\'e}e linguistiquement. Cependant les m{\'e}thodes d'{\'e}valuation commun{\'e}ment utilis{\'e}es ne rendent pas compte de toutes les propri{\'e}t{\'e}s de tels syst{\`e}mes. Dans cet article, nous montrons qu{'}un mod{\`e}le simple qui repose sur une reformulation en termes d{'}entropie d{'}une hypoth{\`e}se ind{\'e}pendante de la langue {\'e}nonc{\'e}e par Harris (1955), permet de segmenter un corpus et d{'}en extraire un lexique. Test{\'e} sur le corpus de l{'}Academia Sinica, notre syst{\`e}me permet l{'}induction d{'}une segmentation et d{'}un lexique qui ont de bonnes propri{\'e}t{\'e}s intrins{\`e}ques et dont les caract{\'e}ristiques sont similaires {\`a} celles du lexique sous-jacent au corpus segment{\'e} manuellement. De plus, on constate une certaine corr{\'e}lation entre les r{\'e}sultats du mod{\`e}le de segmentation et les structures syntaxiques fournies par une sous-partie arbor{\'e}e corpus."
}
Markdown (Informal)
[Segmentation et induction de lexique non-supervisées du mandarin (Unsupervised segmentation and induction of mandarin lexicon)](https://preview.aclanthology.org/fix-sig-urls/2011.jeptalnrecital-long.23/) (Magistry & Sagot, JEP/TALN/RECITAL 2011)
ACL