2021
pdf
abs
Controlling Prosody in End-to-End TTS: A Case Study on Contrastive Focus Generation
Siddique Latif
|
Inyoung Kim
|
Ioan Calapodescu
|
Laurent Besacier
Proceedings of the 25th Conference on Computational Natural Language Learning
While End-2-End Text-to-Speech (TTS) has made significant progresses over the past few years, these systems still lack intuitive user controls over prosody. For instance, generating speech with fine-grained prosody control (prosodic prominence, contextually appropriate emotions) is still an open challenge. In this paper, we investigate whether we can control prosody directly from the input text, in order to code information related to contrastive focus which emphasizes a specific word that is contrary to the presuppositions of the interlocutor. We build and share a specific dataset for this purpose and show that it allows to train a TTS system were this fine-grained prosodic feature can be correctly conveyed using control tokens. Our evaluation compares synthetic and natural utterances and shows that prosodic patterns of contrastive focus (variations of Fo, Intensity and Duration) can be learnt accurately. Such a milestone is important to allow, for example, smart speakers to be programmatically controlled in terms of output prosody.
2020
pdf
abs
Caractérisation des plosives finales dans des langues d’Asie : une étude multilingue du non relâchement (Characterization of Stop Consonants in Asian Languages: A two-language Study of Unreleased)
Thi-Thuy-Hien Tran
|
Nathalie Vallée
|
Christophe Savariaux
|
Inyoung Kim
|
Sunhee Kim
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole
Cette étude propose de caractériser le non relâchement des plosives finales /p, t, k/ de deux langues d’Asie, tonale (vietnamien) et non tonale (coréen), du point de vue aérodynamique et glottographique. Le comportement glottique (ouverture et fermeture de la glotte, position verticale du larynx) a été examiné en synchronisation avec les valeurs de débits d’air (oral et nasal) pendant les phases de la réalisation consonantique. Les résultats mettent en évidence (1) l’absence de relâchement nasal après l’occlusion de la plosive finale pouvant entraîner une baisse de la pression intraorale, (2) que le larynx s’abaisse systématiquement durant la tenue de la consonne. Cette stratégie de réalisation va dans le sens de notre hypothèse selon laquelle les plosives non relâchées sont produites avec un mécanisme permettant de diminuer la pression intraorale de manière à minimiser le coût articulatoire de la tenue de la closion avec, pour conséquence acoustique, l’absence de burst.
2018
pdf
CBFC: a parallel L2 speech corpus for Korean and French learners
Hiyon Yoo
|
Inyoung Kim
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)