Évaluation de la description automatique de scènes audio par la tâche d’Audio Question Answering

Marcel Gibier; Raphaël Duroselle; Pierre Serrano; Olivier Boëffard; Jean-François Bonastre

Évaluation de la description automatique de scènes audio par la tâche d’Audio Question Answering

Marcel Gibier, Raphaël Duroselle, Pierre Serrano, Olivier Boëffard, Jean-François Bonastre

Abstract

Nous explorons l’évaluation de la tâche de description automatique de scènes audio à travers une approche indirecte basée sur la réponse aux questions sur des documents audio. En l’absence de métriques d’évaluation robustes et automatiques pour la tâche de description automatique de scènes audio, nous nous appuyons sur le benchmark MMAU, un jeu de questions à choix multiple sur des extraits audio variés. Nous introduisons une architecture en cascade qui dépasse les performances de certains modèles de référence de taille comparable. Toutefois, nos résultats mettent en évidence des limitations du benchmark MMAU, notamment un biais textuel et une capacité limitée à évaluer l’intégration conjointe des informations relatives à la parole et aux événements sonores. Nous suggérons des pistes d’amélioration pour rendre les évaluations futures plus fidèles aux enjeux de la tâche de description automatique de scènes audio.

Anthology ID:: 2025.jeptalnrecital-evalllm.14
Volume:: Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)
Month:: 6
Year:: 2025
Address:: Marseille, France
Editors:: Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA \\& ARIA
Note:
Pages:: 164–177
Language:: French
URL:: https://preview.aclanthology.org/add-orcids-2024-emnlp/2025.jeptalnrecital-evalllm.14/
DOI:
Bibkey:
Cite (ACL):: Marcel Gibier, Raphaël Duroselle, Pierre Serrano, Olivier Boëffard, and Jean-François Bonastre. 2025. Évaluation de la description automatique de scènes audio par la tâche d’Audio Question Answering. In Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM), pages 164–177, Marseille, France. ATALA \\& ARIA.
Cite (Informal):: Évaluation de la description automatique de scènes audio par la tâche d’Audio Question Answering (Gibier et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/add-orcids-2024-emnlp/2025.jeptalnrecital-evalllm.14.pdf

PDF Cite Search Fix data