Exploration de la représentation multidimensionnelle de paramètres acoustiques unidimensionnels de la parole extraits par des modèles profonds non supervisés.

Maxime Jacquelin, Maëva Garnier, Laurent Girin, Rémy Vincent, Olivier Perrotin


Abstract
Cet article propose une méthodologie pour interpréter les dimensions de variation de la parole conversationnelle, extraites de façon non-supervisée, et sur des données multilocuteurs, par un algorithme d’apprentisage profond (Auto-Encodeur Variationnel). Par des analyses de corrélation et de similarité cosinus, nous montrons que la distribution de la fréquence fondamentale et de la fréquence centrale des trois premiers formants de l’ensemble d’apprentissage est encodée par une direction dédiée de l’espace latent. Lorsque la distribution est multimodale, les différents modes du paramètre acoustique sont encodés dans des dimensions distinctes. De plus, nous avons identifié les directions expliquant la variation des paramètres au sein de chaque mode, et entre eux.
Anthology ID:
2024.jeptalnrecital-jep.9
Volume:
Actes des 35èmes Journées d'Études sur la Parole
Month:
7
Year:
2024
Address:
Toulouse, France
Editors:
Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA and AFPC
Note:
Pages:
82–91
Language:
French
URL:
https://aclanthology.org/2024.jeptalnrecital-jep.9
DOI:
Bibkey:
Cite (ACL):
Maxime Jacquelin, Maëva Garnier, Laurent Girin, Rémy Vincent, and Olivier Perrotin. 2024. Exploration de la représentation multidimensionnelle de paramètres acoustiques unidimensionnels de la parole extraits par des modèles profonds non supervisés.. In Actes des 35èmes Journées d'Études sur la Parole, pages 82–91, Toulouse, France. ATALA and AFPC.
Cite (Informal):
Exploration de la représentation multidimensionnelle de paramètres acoustiques unidimensionnels de la parole extraits par des modèles profonds non supervisés. (Jacquelin et al., JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:
https://preview.aclanthology.org/nschneid-patch-4/2024.jeptalnrecital-jep.9.pdf