2010
pdf
abs
An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts
Phuong Le-Hong
|
Azim Roussanaly
|
Thi Minh Huyen Nguyen
|
Mathias Rossignol
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
This paper presents an empirical study on the application of the maximum entropy approach for part-of-speech tagging of Vietnamese text, a language with special characteristics which largely distinguish it from occidental languages. Our best tagger explores and includes useful knowledge sources for tagging Vietnamese text and gives a 93.40%overall accuracy and a 80.69%unknown word accuracy on a test set of the Vietnamese treebank. Our tagger significantly outperforms the tagger that is being used for building the Vietnamese treebank, and as far as we are aware, this is the best tagging result ever published for the Vietnamese language.
2008
pdf
abs
Word Segmentation of Vietnamese Texts: a Comparison of Approaches
Quang Thắng Đinh
|
Hồng Phương Lê
|
Thị Minh Huyền Nguyễn
|
Cẩm Tú Nguyễn
|
Mathias Rossignol
|
Xuân Lương Vũ
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)
We present in this paper a comparison between three segmentation systems for the Vietnamese language. Indeed, the majority of Vietnamese words is built by semantic composition from about 7,000 syllables, which also have a meaning as isolated words. So the identification of word boundaries in a text is not a simple task, and ambiguities often appear. Beyond the presentation of the tested systems, we also propose a standard definition for word segmentation in Vietnamese, and introduce a reference corpus developed for the purpose of evaluating such a task. The results observed confirm that it can be relatively well treated by automatic means, although a solution needs to be found to take into account out-of-vocabulary words.
2006
pdf
abs
Mise au jour semi-automatique de nuances sémantiques entre mots de sens proches
Mathias Rossignol
|
Pascale Sébillot
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
L’acquisition automatique sur corpus d’informations lexicales sémantiques donne une place importante à la constitution de classes sémantiques rassemblant des mots de sens proches. Or, l’intérêt pratique de celles-ci reste limité en l’absence d’information sur les distinctions individualisant les sens des mots qu’elles rassemblent. Nous présentons dans cet article un premier système permettant de mettre au jour, de manière semi-automatique et à partir des seules données textuelles rassemblées dans un corpus, des éléments de distinction sémantique fine entre mots appartenant à une même classe, atteignant ainsi un degré de définition du sens encore inédit en acquisition automatique d’informations sémantiques lexicales. La technique mise au point regroupe, en s’appuyant sur l’étude de grands voisinages autour des occurrences des mots comparés, des paires de mots distingués par des nuances similaires. Cette approche présente la faiblesse de ne permettre qu’une représentation implicite des nuances découvertes : les listes de paires de mots rapprochées doivent être interprétées afin de « comprendre » l’élément de distinction commun. En revanche, elle permet une automatisation importante du processus de recherche de nuances, suffisante pour assurer que le travail humain de validation des résultats n’introduise dans ceux-ci de biais interprétatif trop important.
pdf
A language-independent method for the alignement of parallel corpora
Thi Minh Huyền Nguyễn
|
Mathias Rossignol
Proceedings of the 20th Pacific Asia Conference on Language, Information and Computation