Eve Sauvage

2026

We describe the participation of team TFB in SemEval-2026 Task 4 on narrative similarity. We explore ColBERT-inspired sentence-level late interaction to capture event reordering, compare fine-tuning with synthetic data at multiple difficulty tiers, finding that distribution proximity to the target data matters more than volume and evaluate chain-of-thought prompting. We complement our approaches with a human annotation study (Krippendorff’s alpha=0.32) confirming the task’s inherent difficulty, an analysis of synthetic data distribution shift explaining why fine-tuning on out-of-distribution data hurts the model’s performance. Despite our tests, we didn’t surpass results of sentence-t5-xxl on Track B and Qwen2.5-7B on Track A. We finally decided to submit these two models for the task.

2025

pdf bib abs

La structure du contenu textuel a-t-elle un impact sur les modèles linguistiques pour le résumé automatique ?
Eve Sauvage | Sabrina Campano | Lydia Ould-Ouali | Cyril Grouin
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés

Le traitement de séquences longues par des modèles de langues reste un sujet à part entière, y compris pour le résumé automatique, malgré des améliorations récentes. Dans ce travail, nous présentons des expériences de résumé automatique d’articles scientifiques à l’aide de modèles BART, prenant en compte les informations textuelles provenant de passages distincts des textes à résumer. Nous démontrons que la prise en compte de la structure du document améliore les performances des modèles et se rapproche des performances de LongFormer en anglais.

pdf bib abs

Plongement des constituants pour la représentation sémantique des phrases
Eve Sauvage | Iskandar Boucharenc | Thomas Gerald | Julien Tourille | Sabrina Campano | Cyril Grouin | Sophie Rosset
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux

Les méthodes d’apprentissage profond en traitement automatique des langues reposent souvent sur une segmentation des textes en tokens avant leur vectorisation. Cette segmentation produit des sous-unités lexicales offrant une grande flexibilité. Toutefois, la réutilisation de tokens identiques dans des mots de sens différents peut favoriser des représentations basées sur la forme plutôt que sur la sémantique. Ce décalage entre la forme de surface et le sens peut induire des effets indésirables dans le traitement de la langue. Afin de limiter l’influence de la forme sur la sémantique des représentations vectorielles, nous proposons une représentation intermédiaire plus compacte et plus fidèle au sens des mots.

2024

pdf bib abs

Does the structure of textual content have an impact on language models for automatic summarization?
Eve Sauvage | Sabrina Campano | Lydia Ouali | Cyril Grouin
Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop)

The processing of long sequences with models remains a subject in its own right, including automatic summary, despite recent improvements. In this work, we present experiments on the automatic summarization of scientific articles using BART models, taking into account textual information coming from distinct passages from the long texts to be summarized. We demonstrate that taking into account document structure improves the performance of state-of-the-art models and approaches the performance of LongFormer on English.

Co-authors

Iskandar Boucharenc 1

Anna Colli 1

Lydia Ouali 1

Lydia Ould-Ouali 1

Benedictus Kent Rachmat 1

Sophie Rosset 1

Zheng Zhang 1

Venues

Fix author