Li-Chi Wu


Fixing paper assignments

  1. Please select all papers that belong to the same person.
  2. Indicate below which author they should be assigned to.
Provide a valid ORCID iD here. This will be used to match future papers to this author.
Provide the name of the school or the university where the author has received or will receive their highest degree (e.g., Ph.D. institution for researchers, or current affiliation for students). This will be used to form the new author page ID, if needed.

TODO: "submit" and "cancel" buttons here


2010

pdf bib
Outils de segmentation du chinois et textométrie
Li-Chi Wu
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues

La segmentation en mots est une première étape possible dans le traitement automatique de la langue chinoise. Les systèmes de segmentation se sont beaucoup développés depuis le premier apparu dans les années 1980. Il n’existe cependant aucun outil standard aujourd’hui. L’objectif de ce travail est de faire une comparaison des différents outils de segmentation en s’appuyant sur une analyse statistique. Le but est de définir pour quel type de texte chacun d’eux est le plus performant. Quatre outils de segmentation et deux corpus avec des thèmes distincts ont été choisis pour cette étude. À l’aide des outils textométriques Lexico3 et mkAlign, nous avons centré notre analyse sur le nombre de syllabes du chinois. Les données quantitatives ont permis d’objectiver des différences entre les outils. Le système Hylanda s’avère performant dans la segmentation des termes spécialisés et le système Stanford est plus indiqué pour les textes généraux. L’étude de la comparaison des outils de segmentation montre le statut incontournable de l’analyse textométrique aujourd’hui, celle-ci permettant d’avoir accès rapidement à la recherche d’information.