Adrien Gresse


2020

pdf
Apprentissage automatique de représentation de voix à l’aide d’une distillation de la connaissance pour le casting vocal (Learning voice representation using knowledge distillation for automatic voice casting )
Adrien Gresse | Mathias Quillot | Richard Dufour | Jean-François Bonastre
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

La recherche d’acteurs vocaux pour les productions audiovisuelles est réalisée par des directeurs artistiques (DA). Les DA sont constamment à la recherche de nouveaux talents vocaux, mais ne peuvent effectuer des auditions à grande échelle. Les outils automatiques capables de suggérer des voix présentent alors un grand intérêt pour l’industrie audiovisuelle. Dans les travaux précédents, nous avons montré l’existence d’informations acoustiques permettant de reproduire des choix du DA. Dans cet article, nous proposons une approche à base de réseaux de neurones pour construire une représentation adaptée aux personnages/rôles visés, appelée p-vecteur. Nous proposons ensuite de tirer parti de données externes pour la représentation de voix, proches de celles d’origine, au moyen de méthodes de distillation de la connaissance. Les expériences menées sur des extraits de voix de jeux vidéo montrent une amélioration significative de l’approche p-vecteur, avec distillation de la connaissance, par rapport à une représentation x-vecteur, état-de-l’art en reconnaissance du locuteur.

pdf
La voix actée : pratiques, enjeux, applications (Acted voice : practices, challenges, applications)
Mathias Quillot | Lauriane Guillou | Adrien Gresse | Rafaël Ferro | Raphaël Röth | Damien Malinas | Richard Dufour | Axel Roebel | Nicolas Obin | Jean-François Bonastre | Emmanuel Ethis
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

La voix actée représente un défi majeur pour les futures interfaces vocales avec un potentiel d’application extrêmement important pour la transformation numérique des secteurs de la culture et de la communication, comme la production ou la post-production de voix pour les séries ou le cinéma. Un aspect central de la voix actée repose sur la notion d’interprétation, un aspect peu étudié dans la communauté scientifique de la parole. Cet article propose un état des lieux et une réflexion sur les défis scientifiques et les applications technologiques de la voix actée : à la croisée de l’acoustique, de la linguistique, de la culture, et de l’apprentissage machine. Une analyse préliminaire des pratiques permet de rendre compte de la diversité de l’écosystème des “métiers de la voix” et de pointer les fonctions et les conventions qui s’y rattachent. Nous nous intéresserons ensuite à la pratique particulière du doublage de voix, en faisant ressortir ses enjeux et problématiques spécifiques puis en présentant des solutions proposées pour modéliser les codes expressifs de la voix d’un acteur ou les choix d’un opérateur pour le doublage.