Eve Sauvage


2026

We describe the participation of team TFB in SemEval-2026 Task 4 on narrative similarity. We explore ColBERT-inspired sentence-level late interaction to capture event reordering, compare fine-tuning with synthetic data at multiple difficulty tiers, finding that distribution proximity to the target data matters more than volume and evaluate chain-of-thought prompting. We complement our approaches with a human annotation study (Krippendorff’s alpha=0.32) confirming the task’s inherent difficulty, an analysis of synthetic data distribution shift explaining why fine-tuning on out-of-distribution data hurts the model’s performance. Despite our tests, we didn’t surpass results of sentence-t5-xxl on Track B and Qwen2.5-7B on Track A. We finally decided to submit these two models for the task.

2025

Le traitement de séquences longues par des modèles de langues reste un sujet à part entière, y compris pour le résumé automatique, malgré des améliorations récentes. Dans ce travail, nous présentons des expériences de résumé automatique d’articles scientifiques à l’aide de modèles BART, prenant en compte les informations textuelles provenant de passages distincts des textes à résumer. Nous démontrons que la prise en compte de la structure du document améliore les performances des modèles et se rapproche des performances de LongFormer en anglais.
Les méthodes d’apprentissage profond en traitement automatique des langues reposent souvent sur une segmentation des textes en tokens avant leur vectorisation. Cette segmentation produit des sous-unités lexicales offrant une grande flexibilité. Toutefois, la réutilisation de tokens identiques dans des mots de sens différents peut favoriser des représentations basées sur la forme plutôt que sur la sémantique. Ce décalage entre la forme de surface et le sens peut induire des effets indésirables dans le traitement de la langue. Afin de limiter l’influence de la forme sur la sémantique des représentations vectorielles, nous proposons une représentation intermédiaire plus compacte et plus fidèle au sens des mots.

2024

The processing of long sequences with models remains a subject in its own right, including automatic summary, despite recent improvements. In this work, we present experiments on the automatic summarization of scientific articles using BART models, taking into account textual information coming from distinct passages from the long texts to be summarized. We demonstrate that taking into account document structure improves the performance of state-of-the-art models and approaches the performance of LongFormer on English.