@inproceedings{gresse-etal-2020-apprentissage,
title = "Apprentissage automatique de repr{\'e}sentation de voix {\`a} l{'}aide d{'}une distillation de la connaissance pour le casting vocal (Learning voice representation using knowledge distillation for automatic voice casting )",
author = "Gresse, Adrien and
Quillot, Mathias and
Dufour, Richard and
Bonastre, Jean-Fran{\c{c}}ois",
booktitle = "Actes de la 6e conf{\'e}rence conjointe Journ{\'e}es d'{\'E}tudes sur la Parole (JEP, 33e {\'e}dition), Traitement Automatique des Langues Naturelles (TALN, 27e {\'e}dition), Rencontre des {\'E}tudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (R{\'E}CITAL, 22e {\'e}dition). Volume 1 : Journ{\'e}es d'{\'E}tudes sur la Parole",
month = "6",
year = "2020",
address = "Nancy, France",
publisher = "ATALA et AFCP",
url = "https://aclanthology.org/2020.jeptalnrecital-jep.32",
pages = "280--288",
abstract = "La recherche d{'}acteurs vocaux pour les productions audiovisuelles est r{\'e}alis{\'e}e par des directeurs artistiques (DA). Les DA sont constamment {\`a} la recherche de nouveaux talents vocaux, mais ne peuvent effectuer des auditions {\`a} grande {\'e}chelle. Les outils automatiques capables de sugg{\'e}rer des voix pr{\'e}sentent alors un grand int{\'e}r{\^e}t pour l{'}industrie audiovisuelle. Dans les travaux pr{\'e}c{\'e}dents, nous avons montr{\'e} l{'}existence d{'}informations acoustiques permettant de reproduire des choix du DA. Dans cet article, nous proposons une approche {\`a} base de r{\'e}seaux de neurones pour construire une repr{\'e}sentation adapt{\'e}e aux personnages/r{\^o}les vis{\'e}s, appel{\'e}e p-vecteur. Nous proposons ensuite de tirer parti de donn{\'e}es externes pour la repr{\'e}sentation de voix, proches de celles d{'}origine, au moyen de m{\'e}thodes de distillation de la connaissance. Les exp{\'e}riences men{\'e}es sur des extraits de voix de jeux vid{\'e}o montrent une am{\'e}lioration significative de l{'}approche p-vecteur, avec distillation de la connaissance, par rapport {\`a} une repr{\'e}sentation x-vecteur, {\'e}tat-de-l{'}art en reconnaissance du locuteur.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="gresse-etal-2020-apprentissage">
<titleInfo>
<title>Apprentissage automatique de représentation de voix à l’aide d’une distillation de la connaissance pour le casting vocal (Learning voice representation using knowledge distillation for automatic voice casting )</title>
</titleInfo>
<name type="personal">
<namePart type="given">Adrien</namePart>
<namePart type="family">Gresse</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Mathias</namePart>
<namePart type="family">Quillot</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Richard</namePart>
<namePart type="family">Dufour</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jean-François</namePart>
<namePart type="family">Bonastre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2020-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 6e conférence conjointe Journées d’Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d’Études sur la Parole</title>
</titleInfo>
<originInfo>
<publisher>ATALA et AFCP</publisher>
<place>
<placeTerm type="text">Nancy, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>La recherche d’acteurs vocaux pour les productions audiovisuelles est réalisée par des directeurs artistiques (DA). Les DA sont constamment à la recherche de nouveaux talents vocaux, mais ne peuvent effectuer des auditions à grande échelle. Les outils automatiques capables de suggérer des voix présentent alors un grand intérêt pour l’industrie audiovisuelle. Dans les travaux précédents, nous avons montré l’existence d’informations acoustiques permettant de reproduire des choix du DA. Dans cet article, nous proposons une approche à base de réseaux de neurones pour construire une représentation adaptée aux personnages/rôles visés, appelée p-vecteur. Nous proposons ensuite de tirer parti de données externes pour la représentation de voix, proches de celles d’origine, au moyen de méthodes de distillation de la connaissance. Les expériences menées sur des extraits de voix de jeux vidéo montrent une amélioration significative de l’approche p-vecteur, avec distillation de la connaissance, par rapport à une représentation x-vecteur, état-de-l’art en reconnaissance du locuteur.</abstract>
<identifier type="citekey">gresse-etal-2020-apprentissage</identifier>
<location>
<url>https://aclanthology.org/2020.jeptalnrecital-jep.32</url>
</location>
<part>
<date>2020-6</date>
<extent unit="page">
<start>280</start>
<end>288</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Apprentissage automatique de représentation de voix à l’aide d’une distillation de la connaissance pour le casting vocal (Learning voice representation using knowledge distillation for automatic voice casting )
%A Gresse, Adrien
%A Quillot, Mathias
%A Dufour, Richard
%A Bonastre, Jean-François
%S Actes de la 6e conférence conjointe Journées d’Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d’Études sur la Parole
%D 2020
%8 June
%I ATALA et AFCP
%C Nancy, France
%G French
%F gresse-etal-2020-apprentissage
%X La recherche d’acteurs vocaux pour les productions audiovisuelles est réalisée par des directeurs artistiques (DA). Les DA sont constamment à la recherche de nouveaux talents vocaux, mais ne peuvent effectuer des auditions à grande échelle. Les outils automatiques capables de suggérer des voix présentent alors un grand intérêt pour l’industrie audiovisuelle. Dans les travaux précédents, nous avons montré l’existence d’informations acoustiques permettant de reproduire des choix du DA. Dans cet article, nous proposons une approche à base de réseaux de neurones pour construire une représentation adaptée aux personnages/rôles visés, appelée p-vecteur. Nous proposons ensuite de tirer parti de données externes pour la représentation de voix, proches de celles d’origine, au moyen de méthodes de distillation de la connaissance. Les expériences menées sur des extraits de voix de jeux vidéo montrent une amélioration significative de l’approche p-vecteur, avec distillation de la connaissance, par rapport à une représentation x-vecteur, état-de-l’art en reconnaissance du locuteur.
%U https://aclanthology.org/2020.jeptalnrecital-jep.32
%P 280-288
Markdown (Informal)
[Apprentissage automatique de représentation de voix à l’aide d’une distillation de la connaissance pour le casting vocal (Learning voice representation using knowledge distillation for automatic voice casting )](https://aclanthology.org/2020.jeptalnrecital-jep.32) (Gresse et al., JEP/TALN/RECITAL 2020)
ACL
- Adrien Gresse, Mathias Quillot, Richard Dufour, and Jean-François Bonastre. 2020. Apprentissage automatique de représentation de voix à l’aide d’une distillation de la connaissance pour le casting vocal (Learning voice representation using knowledge distillation for automatic voice casting ). In Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole, pages 280–288, Nancy, France. ATALA et AFCP.