Audition: A Frame-Annotated Multimodal Dataset for Accessible Audiovisual Content

Maucha Andrade Gamonal; Tiago Timponi Torrent; Ely Edison Matos; Adriana S. Pagano; Frederico Belcavello; Flávia Affonso Mayer; Arthur Lorenzi; Natalia S. Sigiliano; Helen de Andrade Abreu; Lívia Vicente Dutra; Marcelo Viridiano; André Coneglian; Victor A. S. Herbst; Franciany O. Campos; Kenneth Brown; Lívia Pádua Ruiz; Lisandra Carvalho Bonoto; Luiz Fernando Pereira; Yulla Liquer Navarro

Audition: A Frame-Annotated Multimodal Dataset for Accessible Audiovisual Content

Maucha Andrade Gamonal, Tiago Timponi Torrent, Ely Edison Matos, Adriana S. Pagano, Frederico Belcavello, Flávia Affonso Mayer, Arthur Lorenzi, Natalia S. Sigiliano, Helen de Andrade Abreu, Lívia Vicente Dutra, Marcelo Viridiano, André Coneglian, Victor A. S. Herbst, Franciany O. Campos, Kenneth Brown, Lívia Padua Ruiz, Lisandra Carvalho Bonoto, Luiz Fernando Pereira, Yulla Liquer Navarro

Abstract

This paper presents a multimodal semantic analysis of accessible Brazilian short films using a frame-based annotation approach. We introduce a subset of the Audition dataset, comprising six short films from the animation and documentary genres. We analysed three communicative modes: original audio, audio description, and visual content. Trained annotators semantically annotated each mode following the FrameNet Brazil multimodal methodology. To compare meaning across modalities, we used cosine similarity over frame-semantic representations. Results show that audio description aligns more closely with video content than original audio, reflecting its role in translating visual meaning into language. Our findings demonstrate the effectiveness of frame semantics in modelling meaning across modalities and provide quantitative evidence of audio description as a bridge between visual and verbal communication. The dataset and annotation strategies are a valuable resource for research on multimodal representation, semantic similarity, and accessible media.

Anthology ID:: 2025.isa-1.10
Volume:: Proceedings of the 21st Joint ACL - ISO Workshop on Interoperable Semantic Annotation (ISA-21)
Month:: September
Year:: 2025
Address:: Düsseldorf, Germany
Editor:: Bunt Harry
Venues:: ISA | WS
SIG:: SIGSEM
Publisher:: Association for Computational Linguistics
Note:
Pages:
Language:
URL:: https://preview.aclanthology.org/missing-isa-paper/2025.isa-1.10/
DOI:
Bibkey:
Cite (ACL):: Maucha Andrade Gamonal, Tiago Timponi Torrent, Ely Edison Matos, Adriana S. Pagano, Frederico Belcavello, Flávia Affonso Mayer, Arthur Lorenzi, Natalia S. Sigiliano, Helen de Andrade Abreu, Lívia Vicente Dutra, Marcelo Viridiano, André Coneglian, Victor A. S. Herbst, Franciany O. Campos, Kenneth Brown, Lívia Padua Ruiz, Lisandra Carvalho Bonoto, Luiz Fernando Pereira, and Yulla Liquer Navarro. 2025. Audition: A Frame-Annotated Multimodal Dataset for Accessible Audiovisual Content. In Proceedings of the 21st Joint ACL - ISO Workshop on Interoperable Semantic Annotation (ISA-21), Düsseldorf, Germany. Association for Computational Linguistics.
Cite (Informal):: Audition: A Frame-Annotated Multimodal Dataset for Accessible Audiovisual Content (Gamonal et al., ISA 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/missing-isa-paper/2025.isa-1.10.pdf

PDF Cite Search Fix data