@inproceedings{dahmani-etal-2020-etude,
title = "{\'E}tude comparative des param{\`e}tres d{'}entr{\'e}e pour la synth{\`e}se expressive audiovisuelle de la parole par {DNN}s (Comparative study of input parameters for {DNN}-based expressive audiovisual speech synthesis )",
author = "Dahmani, Sara and
Colotte, Vincent and
Ouni, Slim",
booktitle = "Actes de la 6e conf{\'e}rence conjointe Journ{\'e}es d'{\'E}tudes sur la Parole (JEP, 33e {\'e}dition), Traitement Automatique des Langues Naturelles (TALN, 27e {\'e}dition), Rencontre des {\'E}tudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (R{\'E}CITAL, 22e {\'e}dition). Volume 1 : Journ{\'e}es d'{\'E}tudes sur la Parole",
month = "6",
year = "2020",
address = "Nancy, France",
publisher = "ATALA et AFCP",
url = "https://aclanthology.org/2020.jeptalnrecital-jep.15",
pages = "127--135",
abstract = "Dans le pass{\'e}, les descripteurs contextuels pour la synth{\`e}se de la parole acoustique ont {\'e}t{\'e} {\'e}tudi{\'e}s pour l{'}entra{\^\i}nement des syst{\`e}mes bas{\'e}s sur des HMMs. Dans ce travail, nous {\'e}tudions l{'}impact de ces facteurs pour la synth{\`e}se de la parole audiovisuelle par DNNs. Nous analysons cet impact pour les trois aspects de la parole : la modalit{\'e} acoustique, la modalit{\'e} visuelle et les dur{\'e}es des phon{\`e}mes. Nous {\'e}tudions {\'e}galement l{'}apport d{'}un entra{\^\i}nement joint et s{\'e}par{\'e} des deux modalit{\'e}s acoustique et visuelle sur la qualit{\'e} de la parole synth{\'e}tique g{\'e}n{\'e}r{\'e}e. Finalement, nous proc{\'e}dons {\`a} une validation crois{\'e}e entre les r{\'e}sultats de la synth{\`e}se des diff{\'e}rentes {\'e}motions. Cette validation crois{\'e}e, nous a permis de v{\'e}rifier la capacit{\'e} des DNNs {\`a} apprendre des caract{\'e}ristiques sp{\'e}cifiques {\`a} chaque {\'e}motion.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="dahmani-etal-2020-etude">
<titleInfo>
<title>Étude comparative des paramètres d’entrée pour la synthèse expressive audiovisuelle de la parole par DNNs (Comparative study of input parameters for DNN-based expressive audiovisual speech synthesis )</title>
</titleInfo>
<name type="personal">
<namePart type="given">Sara</namePart>
<namePart type="family">Dahmani</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Vincent</namePart>
<namePart type="family">Colotte</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Slim</namePart>
<namePart type="family">Ouni</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2020-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 6e conférence conjointe Journées d’Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d’Études sur la Parole</title>
</titleInfo>
<originInfo>
<publisher>ATALA et AFCP</publisher>
<place>
<placeTerm type="text">Nancy, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Dans le passé, les descripteurs contextuels pour la synthèse de la parole acoustique ont été étudiés pour l’entraînement des systèmes basés sur des HMMs. Dans ce travail, nous étudions l’impact de ces facteurs pour la synthèse de la parole audiovisuelle par DNNs. Nous analysons cet impact pour les trois aspects de la parole : la modalité acoustique, la modalité visuelle et les durées des phonèmes. Nous étudions également l’apport d’un entraînement joint et séparé des deux modalités acoustique et visuelle sur la qualité de la parole synthétique générée. Finalement, nous procédons à une validation croisée entre les résultats de la synthèse des différentes émotions. Cette validation croisée, nous a permis de vérifier la capacité des DNNs à apprendre des caractéristiques spécifiques à chaque émotion.</abstract>
<identifier type="citekey">dahmani-etal-2020-etude</identifier>
<location>
<url>https://aclanthology.org/2020.jeptalnrecital-jep.15</url>
</location>
<part>
<date>2020-6</date>
<extent unit="page">
<start>127</start>
<end>135</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Étude comparative des paramètres d’entrée pour la synthèse expressive audiovisuelle de la parole par DNNs (Comparative study of input parameters for DNN-based expressive audiovisual speech synthesis )
%A Dahmani, Sara
%A Colotte, Vincent
%A Ouni, Slim
%S Actes de la 6e conférence conjointe Journées d’Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d’Études sur la Parole
%D 2020
%8 June
%I ATALA et AFCP
%C Nancy, France
%G French
%F dahmani-etal-2020-etude
%X Dans le passé, les descripteurs contextuels pour la synthèse de la parole acoustique ont été étudiés pour l’entraînement des systèmes basés sur des HMMs. Dans ce travail, nous étudions l’impact de ces facteurs pour la synthèse de la parole audiovisuelle par DNNs. Nous analysons cet impact pour les trois aspects de la parole : la modalité acoustique, la modalité visuelle et les durées des phonèmes. Nous étudions également l’apport d’un entraînement joint et séparé des deux modalités acoustique et visuelle sur la qualité de la parole synthétique générée. Finalement, nous procédons à une validation croisée entre les résultats de la synthèse des différentes émotions. Cette validation croisée, nous a permis de vérifier la capacité des DNNs à apprendre des caractéristiques spécifiques à chaque émotion.
%U https://aclanthology.org/2020.jeptalnrecital-jep.15
%P 127-135
Markdown (Informal)
[Étude comparative des paramètres d’entrée pour la synthèse expressive audiovisuelle de la parole par DNNs (Comparative study of input parameters for DNN-based expressive audiovisual speech synthesis )](https://aclanthology.org/2020.jeptalnrecital-jep.15) (Dahmani et al., JEP/TALN/RECITAL 2020)
ACL
- Sara Dahmani, Vincent Colotte, and Slim Ouni. 2020. Étude comparative des paramètres d’entrée pour la synthèse expressive audiovisuelle de la parole par DNNs (Comparative study of input parameters for DNN-based expressive audiovisual speech synthesis ). In Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole, pages 127–135, Nancy, France. ATALA et AFCP.