Natalia Kalashnikova


2020

pdf bib
Segmentation automatique en périodes pour le français parlé (Automatic Period Segmentation of Oral French)
Natalia Kalashnikova | Iris Eshkol-Taravella | Loïc Grobol | François Delafontaine
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

Nous proposons la comparaison de deux méthodes de segmentation automatique du français parlé en périodes macro-syntaxiques, qui permettent d’analyser la syntaxe et la prosodie du discours. Nous comparons l’outil Analor (Avanzi et al., 2008) qui a été développé pour la segmentation des périodes prosodiques et les modèles de segmentations utilisant des CRF et des traits prosodiques et / ou morphosyntaxiques. Les résultats montrent qu’Analor divise le discours en plus petits segments prosodiques tandis que les modèles CRF détectent des segments plus larges que les périodes macro-syntaxiques. Cependant, les modèles CRF ont de meilleurs résultats qu’Analor en termes de F-mesure.

pdf bib
Automatic Period Segmentation of Oral French
Natalia Kalashnikova | Loïc Grobol | Iris Eshkol-Taravella | François Delafontaine
Proceedings of the 12th Language Resources and Evaluation Conference

Natural Language Processing in oral speech segmentation is still looking for a minimal unit to analyze. In this work, we present a comparison of two automatic segmentation methods of macro-syntactic periods which allows to take into account syntactic and prosodic components of speech. We compare the performances of an existing tool Analor (Avanzi, Lacheret-Dujour, Victorri, 2008) developed for automatic segmentation of prosodic periods and of CRF models relying on syntactic and / or prosodic features. We find that Analor tends to divide speech into smaller segments and that CRF models detect larger segments rather than macro-syntactic periods. However, in general CRF models perform better results than Analor in terms of F-measure.