Étude comparative des paramètres d’entrée pour la synthèse expressive audiovisuelle de la parole par DNNs (Comparative study of input parameters for DNN-based expressive audiovisual speech synthesis )

Sara Dahmani, Vincent Colotte, Slim Ouni


Abstract
Dans le passé, les descripteurs contextuels pour la synthèse de la parole acoustique ont été étudiés pour l’entraînement des systèmes basés sur des HMMs. Dans ce travail, nous étudions l’impact de ces facteurs pour la synthèse de la parole audiovisuelle par DNNs. Nous analysons cet impact pour les trois aspects de la parole : la modalité acoustique, la modalité visuelle et les durées des phonèmes. Nous étudions également l’apport d’un entraînement joint et séparé des deux modalités acoustique et visuelle sur la qualité de la parole synthétique générée. Finalement, nous procédons à une validation croisée entre les résultats de la synthèse des différentes émotions. Cette validation croisée, nous a permis de vérifier la capacité des DNNs à apprendre des caractéristiques spécifiques à chaque émotion.
Anthology ID:
2020.jeptalnrecital-jep.15
Volume:
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole
Month:
6
Year:
2020
Address:
Nancy, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA et AFCP
Note:
Pages:
127–135
Language:
French
URL:
https://aclanthology.org/2020.jeptalnrecital-jep.15
DOI:
Bibkey:
Cite (ACL):
Sara Dahmani, Vincent Colotte, and Slim Ouni. 2020. Étude comparative des paramètres d’entrée pour la synthèse expressive audiovisuelle de la parole par DNNs (Comparative study of input parameters for DNN-based expressive audiovisual speech synthesis ). In Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole, pages 127–135, Nancy, France. ATALA et AFCP.
Cite (Informal):
Étude comparative des paramètres d’entrée pour la synthèse expressive audiovisuelle de la parole par DNNs (Comparative study of input parameters for DNN-based expressive audiovisual speech synthesis ) (Dahmani et al., JEP/TALN/RECITAL 2020)
Copy Citation:
PDF:
https://preview.aclanthology.org/nodalida-main-page/2020.jeptalnrecital-jep.15.pdf