@inproceedings{biskri-delisle-2001-les,
title = "Les n-grams de caract{\`e}res pour l`aide {\`a} l`extraction de connaissances dans des bases de donn{\'e}es textuelles multilingues",
author = {Biskri, Isma{\"i}l and
Delisle, Sylvain},
editor = "Maurel, Denis",
booktitle = "Actes de la 8{\`e}me conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Articles longs",
month = jul,
year = "2001",
address = "Tours, France",
publisher = "ATALA",
url = "https://preview.aclanthology.org/jlcl-multiple-ingestion/2001.jeptalnrecital-long.7/",
pages = "92--101",
language = "fra",
abstract = "Une v{\'e}ritable classification num{\'e}rique multilingue est impossible si on consid{\`e}re seulement le mot comme unit{\'e} d`information privil{\'e}gi{\'e}e. En traitant les mots comme jetons, la tokenisation s`av{\`e}re relativement simple pour le fran{\c{c}}ais et l`anglais, mais tr{\`e}s difficile pour des langues comme l`allemand ou l`arabe. D`autre part, la lemmatisation utilis{\'e}e comme moyen de normalisation et de r{\'e}duction du lexique constitue un {\'e}cueil non moins n{\'e}gligeable. La notion de n-grams, qui depuis une d{\'e}cennie donne de bons r{\'e}sultats dans Pidentification de la langue ou dans l`analyse de l`oral, est, par les recherches r{\'e}centes, devenue un axe privil{\'e}gi{\'e} dans l`acquisition et l`extraction des connaissances dans les textes. Dans cet article, nous pr{\'e}senterons un outil de classification num{\'e}rique bas{\'e} sur le concept de n-grams de caract{\`e}res. Nous {\'e}valuons aussi les r{\'e}sultats de cet outil que nous comparons {\`a} des r{\'e}sultats obtenus au moyen d`une classification fond{\'e}e sur des mots."
}
Markdown (Informal)
[Les n-grams de caractères pour l’aide à l’extraction de connaissances dans des bases de données textuelles multilingues](https://preview.aclanthology.org/jlcl-multiple-ingestion/2001.jeptalnrecital-long.7/) (Biskri & Delisle, JEP/TALN/RECITAL 2001)
ACL