@inproceedings{salin-2023-etat,
title = "{\'E}tat des lieux des Transformers Vision-Langage : Un {\'e}clairage sur les donn{\'e}es de pr{\'e}-entra{\^\i}nement",
author = "Salin, Emmanuelle",
editor = "Servan, Christophe and
Vilnat, Anne",
booktitle = "Actes de CORIA-TALN 2023. Actes de la 30e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 3 : prises de position en TAL",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://aclanthology.org/2023.jeptalnrecital-statement.2",
pages = "14--29",
abstract = "Apr{\`e}s avoir {\'e}t{\'e} d{\'e}velopp{\'e}e en traitement automatique du langage, l{'}architecture Transformer s{'}est d{\'e}mocratis{\'e}e dans de nombreux domaines de l{'}apprentissage automatique. Elle a permis de surpasser l{'}{\'e}tat de l{'}art dans de nombreuses t{\^a}ches et a conduit {\`a} la cr{\'e}ation de tr{\`e}s grands jeux de donn{\'e}es afin d{'}am{\'e}liorer les performances des mod{\`e}les. En multimodalit{\'e} vision-langage, les r{\'e}sultats encourageants des Transformers favorisent la collecte de donn{\'e}es image-texte {\`a} tr{\`e}s grande {\'e}chelle. Cependant, il est difficile d{'}{\'e}valuer la qualit{\'e} de ces nouveaux jeux de donn{\'e}es, ainsi que leur influence sur la performance de ces mod{\`e}les, car notre compr{\'e}hension des Transformers vision-langage est encore limit{\'e}e. Nous explorons les {\'e}tudes du domaine pour mieux comprendre les processus de collecte des jeux de donn{\'e}es, les caract{\'e}ristiques de ces donn{\'e}es et leurs impacts sur les performances des mod{\`e}les.",
language = "French",
}
Markdown (Informal)
[État des lieux des Transformers Vision-Langage : Un éclairage sur les données de pré-entraînement](https://aclanthology.org/2023.jeptalnrecital-statement.2) (Salin, JEP/TALN/RECITAL 2023)
ACL