Mesure du niveau de proximité entre enregistrements audio et évaluation indirecte du niveau d’abstraction des représentations issues d’un grand modèle de langage
Maxime Fily, Guillaume Wisniewski, Séverine Guillaume, Gilles Adda, Alexis Michaud
Abstract
Nous explorons les représentations vectorielles de la parole à partir d’un modèle pré-entraîné pour déterminer leur niveau d’abstraction par rapport au signal audio. Nous proposons une nouvelle méthode non-supervisée exploitant des données audio ayant des métadonnées soigneusement organisées pour apporter un éclairage sur les informations présentes dans les représentations. Des tests ABX déterminent si les représentations obtenues via un modèle de parole multilingue encodent une caractéristique donnée. Trois expériences sont présentées, portant sur la qualité acoustique de la pièce, le type de discours, ou le contenu phonétique. Les résultats confirment que les différences au niveau de caractéristiques linguistiques/extra-linguistiques d’enregistrements audio sont reflétées dans les représentations de ceux-ci. Plus la quantité d’audio par vecteur est importante, mieux elle permet de distinguer les caractéristiques extra-linguistiques. Plus elle est faible, et mieux nous pouvons distinguer les informations d’ordre phonétique/segmental. La méthode proposée ouvre de nouvelles pistes pour la recherche et les travaux comparatifs sur les langues peu dotées.- Anthology ID:
- 2024.jeptalnrecital-jep.12
- Volume:
- Actes des 35èmes Journées d'Études sur la Parole
- Month:
- 7
- Year:
- 2024
- Address:
- Toulouse, France
- Editors:
- Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA and AFPC
- Note:
- Pages:
- 112–121
- Language:
- French
- URL:
- https://preview.aclanthology.org/fix-sig-urls/2024.jeptalnrecital-jep.12/
- DOI:
- Cite (ACL):
- Maxime Fily, Guillaume Wisniewski, Séverine Guillaume, Gilles Adda, and Alexis Michaud. 2024. Mesure du niveau de proximité entre enregistrements audio et évaluation indirecte du niveau d’abstraction des représentations issues d’un grand modèle de langage. In Actes des 35èmes Journées d'Études sur la Parole, pages 112–121, Toulouse, France. ATALA and AFPC.
- Cite (Informal):
- Mesure du niveau de proximité entre enregistrements audio et évaluation indirecte du niveau d’abstraction des représentations issues d’un grand modèle de langage (Fily et al., JEP/TALN/RECITAL 2024)
- PDF:
- https://preview.aclanthology.org/fix-sig-urls/2024.jeptalnrecital-jep.12.pdf