David Guennec
2026
When depth is redundant: Efficient transformer-based speech anti-spoofing
Hoan My Tran | Damien Lolive | Aghilas Sini | Arnaud Delhay | Pierre-Francois Marteau | David Guennec
Findings of the Association for Computational Linguistics: ACL 2026
Hoan My Tran | Damien Lolive | Aghilas Sini | Arnaud Delhay | Pierre-Francois Marteau | David Guennec
Findings of the Association for Computational Linguistics: ACL 2026
Detecting speech deepfakes is critical for protecting society against fraud, identity theft, and the misuse of modern speech synthesis technologies. Despite recent progress, existing countermeasures often exhibit limited generalization to unseen spoofing attacks, particularly in out-of-domain evaluation settings, even when achieving strong in-domain performance. Transformer architectures have become ubiquitous in anti-spoofing, serving both as feature extractors (e.g., wav2vec 2.0) and as classifiers. However, deep transformer stacks exhibit substantial representational redundancy across adjacent layers, with similarity increasing toward deeper layers. As a result, task-specific specialization is largely concentrated in the final layers, while shallow layers remain underutilized during fine-tuning. In this work, we analyze the layer-wise behavior of transformer-based classifiers for speech deepfake detection and propose a training strategy that explicitly aligns shallow and intermediate representations with those of the final transformer layer. By encouraging all layers to mimic the task-specialized representation learned at depth, the model more effectively exploits early-layer features while preserving discriminative capacity in deeper layers. This design improves robustness to unseen spoofing attacks and enhances out-of-domain generalization. Extensive experiments across multiple benchmark datasets demonstrate consistent performance gains over strong baselines.
2022
Techniques de synthèse vocale neuronale à l’épreuve des données d’apprentissage non dédiées : les livres audio amateurs en français [Neural speech synthesis techniques put to the test with non-dedicated training data: amateur French audio books]
Aghilas Sini | Lily Wadoux | Antoine Perquin | Gaëlle Vidal | David Guennec | Damien Lolive | Pierre Alain | Nelly Barbot | Jonathan Chevelu | Arnaud Delhay
Traitement Automatique des Langues, Volume 63, Numéro 2 : Traitement automatique des langues intermodal et multimodal [Cross-modal and multimodal natural language processing]
Aghilas Sini | Lily Wadoux | Antoine Perquin | Gaëlle Vidal | David Guennec | Damien Lolive | Pierre Alain | Nelly Barbot | Jonathan Chevelu | Arnaud Delhay
Traitement Automatique des Langues, Volume 63, Numéro 2 : Traitement automatique des langues intermodal et multimodal [Cross-modal and multimodal natural language processing]
2016
Une pénalité floue fondée phonologiquement pour améliorer la Sélection d’Unité (A Phonologically Motivated Penalty To Improve Unit Selection)
David Guennec | Damien Lolive
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
David Guennec | Damien Lolive
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
Les systèmes de synthèse par corpus reposent, sauf de rares exceptions, sur des coûts cibles et des coûts de concaténation pour sélectionner la meilleure séquence d’unités. Le rôle du coût de concaténation est de s’assurer que l’assemblage de deux segments de parole ne causera l’apparition d’aucun artefact acoustique. Pour cette tâche, des distances acoustiques (MFCC, F0) sont généralement utilisées, mais dans de nombreux cas cela ne suffit pas. Dans cet article, nous introduisons une pénalité héritée du domaine de la couverture de corpus dans le coût de concaténation afin de bloquer certaines concaténations en fonction de la classe phonologique des diphones à concaténer. En outre, une seconde version faisant appel à une fonction floue est proposée pour relâcher la pénalité en fonction du positionnement du coût de concaténation par rapport à sa distribution. Une évaluation objective montre que la pénalité est efficace et amène à un meilleur classement des séquences d’unités candidates au cours de la sélection. Une évaluation subjective révèle une performance supérieure de l’approche floue.
Se concentrer sur les différences : une méthode d’évaluation subjective efficace pour la comparaison de systèmes de synthèse (Focus on differences : a subjective evaluation method to efficiently compare TTS systems * )
Jonathan Chevelu | Damien Lolive | Sébastien Le Maguer | David Guennec
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
Jonathan Chevelu | Damien Lolive | Sébastien Le Maguer | David Guennec
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
En proposant une nouvelle approche de synthèse de la parole, les études comportent généralement une évaluation subjective d’échantillons acoustiques produits par un système de référence et un nouveau système. Ces échantillons sont produits à partir d’un petit ensemble de phrases choisies aléatoirement dans un unique domaine. Ainsi, statistiquement, des échantillons pratiquement identiques sont présentés et réduisent les écarts de mesure entre les systèmes, au risque de les considérer comme non significatifs. Pour éviter cette problématique méthodologique, nous comparons deux systèmes sur des milliers d’échantillons de différents domaines. L’évaluation est réalisée uniquement sur les paires d’échantillons les plus pertinentes, c’est-à-dire les plus différentes acoustiquement. Cette méthode est appliquée sur un système de synthèse de type HTS et un second par sélection d’unités. La comparaison avec l’approche classique montre que cette méthode révèle des écarts qui jusqu’alors n’étaient pas significatifs.
Patrons Rythmiques et Genres Littéraires en Synthèse de la Parole (How to improve rhythmic patterns according to literary genre in synthesized speech ⇤ )
Elisabeth Delais-Roussarie | Damien Lolive | Hiyon Yoo | David Guennec
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
Elisabeth Delais-Roussarie | Damien Lolive | Hiyon Yoo | David Guennec
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
Ces vingt dernières années, la qualité de la parole synthétique s’est améliorée grâce notamment à l’émergence de nouvelles techniques comme la synthèse par corpus. Mais les patrons rythmiques obtenus ne sont pas toujours perçus comme très naturels. Dans ce papier, nous comparons les patrons rythmiques observés en parole naturelle et synthétique pour trois genres littéraires. Le but de ce travail est d’étudier comment le rythme pourrait être amélioré en synthèse de parole. La comparaison des patrons rythmiques est réalisée grâce à une analyse de la durée relativement à la structure prosodique, les données audio provenant de six comptines, quatre poèmes et deux extraits de conte. Les résultats obtenus laissent penser que les différences rythmiques entre parole naturelle et synthétique sont principalement dues au marquage de la structure prosodique, particulièrement au niveau des groupes intonatifs. De fait, le taux d’allongement des syllabes accentuées en fin de groupes intonatifs est beaucoup plus important en synthèse que dans la parole naturelle.