Trang Tran Hanh Pham

Also published as: Trang Tran Hanh Pham


2024

pdf bib
Apport de la structure de tours à l’identification automatique de genre textuel: un corpus annoté de sites web de tourisme en français
Remi Cardon | Trang Tran Hanh Pham | Julien Zakhia Doueihi | Thomas François
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès

Ce travail étudie la contribution de la structure de tours à l’identification automatique de genres textuels. Ce concept – bien connu dansle domaine de l’analyse de genre – semble être peu exploité dans l’identification automatique du genre. Nous décrivons la collecte d’un corpus de sites web francophones relevant du domaine du tourisme et le processus d’annotation avec les informations de tours. Nous menons des expériences d’identification automatique du genre de texte avec notre corpus. Nos résultats montrent qu’ajouter l’information sur la structure de tours dans un modèle améliore ses performances pour l’identification automatique du genre, tout en réduisant le volume de données nécessaire et le besoin en ressource de calcul.

pdf
Contribution of Move Structure to Automatic Genre Identification: An Annotated Corpus of French Tourism Websites
Rémi Cardon | Trang Tran Hanh Pham | Julien Zakhia Doueihi | Thomas François
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)

The present work studies the contribution of move structure to automatic genre identification. This concept - well known in other branches of genre analysis - seems to have little application in natural language processing. We describe how we collect a corpus of websites in French related to tourism and annotate it with move structure. We conduct experiments on automatic genre identification with our corpus. Our results show that our approach for informing a model with move structure can increase its performance for automatic genre identification, and reduce the need for annotated data and computational power.