@inproceedings{lerner-etal-2023-recherche,
title = "Recherche cross-modale pour r{\'e}pondre {\`a} des questions visuelles",
author = "Lerner, Paul and
Olivier, Ferret and
Guinaudeau, Camille",
editor = {Zargayouna, Ha{\"i}fa},
booktitle = "Actes de CORIA-TALN 2023. Actes de la 18e Conf{\'e}rence en Recherche d'Information et Applications (CORIA)",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://preview.aclanthology.org/fix-sig-urls/2023.jeptalnrecital-coria.5/",
pages = "74--92",
language = "fra",
abstract = "R{\'e}pondre {\`a} des questions visuelles {\`a} propos d{'}entit{\'e}s nomm{\'e}es (KVQAE) est une t{\^a}che difficile qui demande de rechercher des informations dans une base de connaissances multimodale. Nous {\'e}tudions ici comment traiter cette t{\^a}che avec une recherche cross-modale et sa combinaison avec une recherche mono-modale, en se focalisant sur le mod{\`e}le CLIP, un mod{\`e}le multimodal entra{\^i}n{\'e} sur des images appareill{\'e}es {\`a} leur l{\'e}gende textuelle. Nos r{\'e}sultats d{\'e}montrent la sup{\'e}riorit{\'e} de la recherche cross-modale, mais aussi la compl{\'e}mentarit{\'e} des deux, qui peuvent {\^e}tre combin{\'e}es facilement. Nous {\'e}tudions {\'e}galement diff{\'e}rentes mani{\`e}res d{'}ajuster CLIP et trouvons que l{'}optimisation cross-modale est la meilleure solution, {\'e}tant en ad{\'e}quation avec son pr{\'e}-entra{\^i}nement. Notre m{\'e}thode surpasse les approches pr{\'e}c{\'e}dentes, tout en {\'e}tant plus simple et moins co{\^u}teuse. Ces gains de performance sont {\'e}tudi{\'e}s intrins{\`e}quement selon la pertinence des r{\'e}sultats de la recherche et extrins{\`e}quement selon l{'}exactitude de la r{\'e}ponse extraite par un module externe. Nous discutons des diff{\'e}rences entre ces m{\'e}triques et de ses implications pour l'{\'e}valuation de la KVQAE."
}
Markdown (Informal)
[Recherche cross-modale pour répondre à des questions visuelles](https://preview.aclanthology.org/fix-sig-urls/2023.jeptalnrecital-coria.5/) (Lerner et al., JEP/TALN/RECITAL 2023)
ACL