Camille Guinaudeau


2024

pdf
Utiliser l’explicabilité des modèles pour mettre en évidence les expressions genrées dans la parole
François Buet | Camille Guinaudeau | Cyril Grouin | Sahar Ghannay | Shin’Ichi Satoh
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position

Dans de nombreux pays, des études ont souligné la sous-représentation des femmes dans les médias.Mais au-delà du déséquilibre quantitatif se pose la question de l’asymétrie qualitative des représentations des hommes et des femmes.Comment automatiser l’évaluation des contenus et des traits saillants spécifiques aux discours masculins et féminins ?Nous proposons dans cette étude d’exploiter les connaissances acquises par un modèle de classification entraîné à la détection du genre sur des transcriptions automatiques, afin de mettre en évidence des motifs distinctifs du discours masculin ou féminin.Notre approche est basée sur l’utilisation de méthodes développées pour l’intelligence artificielle explicable (IAX), afin de calculer des scores d’attribution au niveau des unités.

pdf
Vers une pédagogie inclusive : une classification multimodale des illustrations de manuels scolaires pour des environnements d’apprentissage adaptés
Saumya Yadav | Élise Lincker | Caroline Huron | Stéphanie Martin | Camille Guinaudeau | Shin’Ichi Satoh | Jainendra Shukla
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position

Afin de favoriser une éducation inclusive, des systèmes automatiques capables d’adapter les manuels scolaires pour les rendre accessibles aux enfants en situation de handicap sont nécessaires. Dans ce contexte, nous proposons de classifier les images associées aux exercices selon trois classes (Essentielle, Informative et Inutile) afin de décider de leur intégration ou non dans la version accessible du manuel pour les enfants malvoyants. Sur un ensemble de données composé de 652 paires (texte, image), nous utilisons des approches monomodales et multimodales à l’état de l’art et montrons que les approches fondées sur le texte obtiennent les meilleurs résultats. Le modèle CamemBERT atteint ainsi une exactitude de 85,25% lorsqu’il est combiné avec des stratégies de gestion de données déséquilibrées. Pour mieux comprendre la relation entre le texte et l’image dans les exercices des manuels, nous effectuons également une analyse qualitative des résultats obtenus avec et sans la modalité image et utilisons la méthode LIME pour expliquer la décision de nos modèles.

2023

pdf
Classification automatique de données déséquilibrées et bruitées : application aux exercices de manuels scolaires
Elise Lincker | Camille Guinaudeau | Olivier Pons | Jérôme Dupire | Isabelle Barbet | Céline Hudelot | Vincent Mousseau | Caroline Huron
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale

Pour faciliter l’inclusion scolaire, il est indispensable de pouvoir adapter de manière automatique les manuels scolaires afin de les rendre accessibles aux enfants dyspraxiques. Dans ce contexte, nous proposons une tâche de classification des exercices selon leur type d’adaptation à la dyspraxie. Nous introduisons un corpus d’exercices extraits de manuels de français de niveau élémentaire, qui soulève certains défis de par sa petite taille et son contenu déséquilibré et bruité. Afin de tirer profit des modalités textuelles, structurelles et visuelles présentes dans nos données, nous combinons des modèles état de l’art par des stratégies de fusion précoce et tardive. Notre approche atteint une exactitude globale de 0.802. Toutefois, les expériences témoignent de la difficulté de la tâche, particulièrement pour les classes minoritaires, pour lesquelles l’exactitude tombe à 0.583.

pdf
Recherche cross-modale pour répondre à des questions visuelles
Paul Lerner | Ferret Olivier | Camille Guinaudeau
Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d'Information et Applications (CORIA)

Répondre à des questions visuelles à propos d’entités nommées (KVQAE) est une tâche difficile qui demande de rechercher des informations dans une base de connaissances multimodale. Nous étudions ici comment traiter cette tâche avec une recherche cross-modale et sa combinaison avec une recherche mono-modale, en se focalisant sur le modèle CLIP, un modèle multimodal entraîné sur des images appareillées à leur légende textuelle. Nos résultats démontrent la supériorité de la recherche cross-modale, mais aussi la complémentarité des deux, qui peuvent être combinées facilement. Nous étudions également différentes manières d’ajuster CLIP et trouvons que l’optimisation cross-modale est la meilleure solution, étant en adéquation avec son pré-entraînement. Notre méthode surpasse les approches précédentes, tout en étant plus simple et moins coûteuse. Ces gains de performance sont étudiés intrinsèquement selon la pertinence des résultats de la recherche et extrinsèquement selon l’exactitude de la réponse extraite par un module externe. Nous discutons des différences entre ces métriques et de ses implications pour l’évaluation de la KVQAE.

pdf bib
Projet Gender Equality Monitor (GEM)
Gilles Adda | François Buet | Sahar Ghannay | Cyril Grouin | Camille Guinaudeau | Lufei Liu | Aurélie Névéol | Albert Rilliard | Uro Rémi
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 6 : projets

Le projet ANR Gender Equality Monitor (GEM) est coordonné par l’Institut National de l’Audiovisuel(INA) et vise à étudier la place des femmes dans les médias (radio et télévision). Dans cette soumission,nous présentons le travail réalisé au LISN : (i) étude diachronique des caractéristiques acoustiquesde la voix en fonction du genre et de l’âge, (ii) comparaison acoustique de la voix des femmeset hommes politiques montrant une incohérence entre performance vocale et commentaires sur lavoix, (iii) réalisation d’un système automatique d’estimation de la féminité perçue à partir descaractéristiques vocales, (iv) comparaison de systèmes de segmentation thématique de transcriptionsautomatiques de données audiovisuelles, (v) mesure des biais sociétaux dans les modèles de languedans un contexte multilingue et multi-culturel, et (vi) premiers essais d’identification de la publicitéen fonction du genre du locuteur.

pdf
Projet ANR MALIN : MAnuels scoLaires INclusifs
Olivier Pons | Isabelle Barbet | Jérôme Dupire | Valérie Grembi | Camille Guinaudeau | Céline Hudelot | Caroline Huron | Elise Lincker | Vincent Mousseau | Léa Pacini
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 6 : projets

L’école joue un rôle essentiel dans la vie des enfants. La restriction de la participation à l’école en raison d’un handicap réduit la qualité de vie. Une difficulté est l’inaccessibilité des manuels scolaires systématiquement utilisés en France pour accompagner les apprentissages. Notre projet vise à les rendre accessibles aux élèves en situation de handicap en innovant pour automatiser leur adaptation. Il s’appuie sur le croisement d’expertises médicale, pédagogique et de psychologie cognitive d’une part, d’expertises en interactions/interfaces homme-machine, accessibilité numérique, traitement de la langue et en conception de systèmes intelligents, d’autre part. Il s’agira de concevoir une plate-forme qui, en partant d’un manuel au format PDF (ou EPUB), mettra en oeuvre, via des modèles structurels et sémantiques du manuel, les adaptations et interfaces qui sont aujourd’hui principalement faites manuellement par les organismes de transposition. Ce travail est financé par l’ANR (financement ANR-21-CE38-0014).

2022

pdf
Un jeu de données pour répondre à des questions visuelles à propos d’entités nommées en utilisant des bases de connaissances (ViQuAE, a Dataset for Knowledge-based Visual Question Answering about Named Entities)
Paul Lerner | Olivier Ferret | Camille Guinaudeau | Hervé Le Borgne | Romaric Besançon | Jose Moreno | Jesús Lovón-Melgarejo
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Dans le contexte général des traitements multimodaux, nous nous intéressons à la tâche de réponse à des questions visuelles à propos d’entités nommées en utilisant des bases de connaissances (KVQAE). Nous mettons à disposition ViQuAE, un nouveau jeu de données de 3 700 questions associées à des images, annoté à l’aide d’une méthode semi-automatique. C’est le premier jeu de données de KVQAE comprenant des types d’entités variés associé à une base de connaissances composée d’1,5 million d’articles Wikipédia, incluant textes et images. Nous proposons également un modèle de référence de KVQAE en deux étapes : recherche d’information puis extraction des réponses. Les résultats de nos expériences démontrent empiriquement la difficulté de la tâche et ouvrent la voie à une meilleure représentation multimodale des entités nommées.

pdf
Survey on Narrative Structure: from Linguistic Theories to Automatic Extraction Approaches
Aman Berhe | Camille Guinaudeau | Claude Barras
Traitement Automatique des Langues, Volume 63, Numéro 1 : Varia [Varia]

pdf bib
Un jeu de données pour répondre à des questions visuelles à propos d’entités nommées [A dataset for answering visual questions about named entities]
Paul Lerner | Salem Messoud | Olivier Ferret | Camille Guinaudeau | Hervé Le Borgne | Romaric Besançon | Jose G. Moreno | Jesús Lovón Melgarejo
Traitement Automatique des Langues, Volume 63, Numéro 2 : Traitement automatique des langues intermodal et multimodal [Cross-modal and multimodal natural language processing]

pdf
Bazinga! A Dataset for Multi-Party Dialogues Structuring
Paul Lerner | Juliette Bergoënd | Camille Guinaudeau | Hervé Bredin | Benjamin Maurice | Sharleyne Lefevre | Martin Bouteiller | Aman Berhe | Léo Galmant | Ruiqing Yin | Claude Barras
Proceedings of the Thirteenth Language Resources and Evaluation Conference

We introduce a dataset built around a large collection of TV (and movie) series. Those are filled with challenging multi-party dialogues. Moreover, TV series come with a very active fan base that allows the collection of metadata and accelerates annotation. With 16 TV and movie series, Bazinga! amounts to 400+ hours of speech and 8M+ tokens, including 500K+ tokens annotated with the speaker, addressee, and entity linking information. Along with the dataset, we also provide a baseline for speaker diarization, punctuation restoration, and person entity recognition. The results demonstrate the difficulty of the tasks and of transfer learning from models trained on mono-speaker audio or written text, which is more widely available. This work is a step towards better multi-party dialogue structuring and understanding. Bazinga! is available at hf.co/bazinga. Because (a large) part of Bazinga! is only partially annotated, we also expect this dataset to foster research towards self- or weakly-supervised learning methods.

2014

pdf
TVD: A Reproducible and Multiply Aligned TV Series Dataset
Anindya Roy | Camille Guinaudeau | Hervé Bredin | Claude Barras
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)

We introduce a new dataset built around two TV series from different genres, The Big Bang Theory, a situation comedy and Game of Thrones, a fantasy drama. The dataset has multiple tracks extracted from diverse sources, including dialogue (manual and automatic transcripts, multilingual subtitles), crowd-sourced textual descriptions (brief episode summaries, longer episode outlines) and various metadata (speakers, shots, scenes). The paper describes the dataset and provide tools to reproduce it for research purposes provided one has legally acquired the DVD set of the series. Tools are also provided to temporally align a major subset of dialogue and description tracks, in order to combine complementary information present in these tracks for enhanced accessibility. For alignment, we consider tracks as comparable corpora and first apply an existing algorithm for aligning such corpora based on dynamic time warping and TFIDF-based similarity scores. We improve this baseline algorithm using contextual information, WordNet-based word similarity and scene location information. We report the performance of these algorithms on a manually aligned subset of the data. To highlight the interest of the database, we report a use case involving rich speech retrieval and propose other uses.

2013

pdf
Graph-based Local Coherence Modeling
Camille Guinaudeau | Michael Strube
Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)

2010

pdf
Utilisation de relations sémantiques pour améliorer la segmentation thématique de documents télévisuels
Camille Guinaudeau | Guillaume Gravier | Pascale Sébillot
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Les méthodes de segmentation thématique exploitant une mesure de la cohésion lexicale peuvent être appliquées telles quelles à des transcriptions automatiques de programmes télévisuels. Cependant, elles sont moins efficaces dans ce contexte, ne prenant en compte ni les particularités des émissions TV, ni celles des transcriptions. Nous étudions ici l’apport de relations sémantiques pour rendre les techniques de segmentation thématique plus robustes. Nous proposons une méthode pour exploiter ces relations dans une mesure de la cohésion lexicale et montrons qu’elles permettent d’augmenter la F1-mesure de +1.97 et +11.83 sur deux corpus composés respectivement de 40h de journaux télévisés et de 40h d’émissions de reportage. Ces améliorations démontrent que les relations sémantiques peuvent rendre les méthodes de segmentation moins sensibles aux erreurs de transcription et au manque de répétitions constaté dans certaines émissions télévisées.