Yiping Li


2008

pdf bib
Chinese Tagging Based on Maximum Entropy Model
Ka Seng Leong | Fai Wong | Yiping Li | Ming Chui Dong
Proceedings of the Sixth SIGHAN Workshop on Chinese Language Processing

2003

pdf bib
Un système de segmentation du chinois basé sur des triplets
Yiping Li
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)

Un des problèmes rencontrés lors de l’analyse de textes en chinois est qu’il n’existe pas de séparateur entré lés mots dans cette langue. Le mot étant une unité linguistique fondamentale en traitement automatique dé la langue, il est nécessaire d’identifier les mots dans un texte chinois afin que des analysés de plus haut niveau puissent être réalisées. Le but de cet article est dé présenter un système d’idéntification dés mots basé sur un algorithme utilisant des triplets dé catégories grammaticales ét dés fréquences de mots. Cé système comprend deux dictionnaires : l’un dédié aux mots ét à léurs fréquences, l’autré aux triplets dés catégories correspondantes. Les tests qui ont été effectués révèlent que 98,5% dés phrases sont découpées correctement. Certaines erreurs sont dués à la taillé limitée du dictionnaire utilisé. Une réflexion sur la création de nouvelles catégories ét dés études proposant des règles grammaticales sont en cours de réalisation afin d’aug1nénter la performance du système.