2021
pdf
abs
ON-TRAC’ systems for the IWSLT 2021 low-resource speech translation and multilingual speech translation shared tasks
Hang Le
|
Florentin Barbier
|
Ha Nguyen
|
Natalia Tomashenko
|
Salima Mdhaffar
|
Souhir Gabiche Gahbiche
|
Benjamin Lecouteux
|
Didier Schwab
|
Yannick Estève
Proceedings of the 18th International Conference on Spoken Language Translation (IWSLT 2021)
This paper describes the ON-TRAC Consortium translation systems developed for two challenge tracks featured in the Evaluation Campaign of IWSLT 2021, low-resource speech translation and multilingual speech translation. The ON-TRAC Consortium is composed of researchers from three French academic laboratories and an industrial partner: LIA (Avignon Université), LIG (Université Grenoble Alpes), LIUM (Le Mans Université), and researchers from Airbus. A pipeline approach was explored for the low-resource speech translation task, using a hybrid HMM/TDNN automatic speech recognition system fed by wav2vec features, coupled to an NMT system. For the multilingual speech translation task, we investigated the us of a dual-decoder Transformer that jointly transcribes and translates an input speech. This model was trained in order to translate from multiple source languages to multiple target ones.
2020
pdf
bib
abs
ON-TRAC Consortium for End-to-End and Simultaneous Speech Translation Challenge Tasks at IWSLT 2020
Maha Elbayad
|
Ha Nguyen
|
Fethi Bougares
|
Natalia Tomashenko
|
Antoine Caubrière
|
Benjamin Lecouteux
|
Yannick Estève
|
Laurent Besacier
Proceedings of the 17th International Conference on Spoken Language Translation
This paper describes the ON-TRAC Consortium translation systems developed for two challenge tracks featured in the Evaluation Campaign of IWSLT 2020, offline speech translation and simultaneous speech translation. ON-TRAC Consortium is composed of researchers from three French academic laboratories: LIA (Avignon Université), LIG (Université Grenoble Alpes), and LIUM (Le Mans Université). Attention-based encoder-decoder models, trained end-to-end, were used for our submissions to the offline speech translation track. Our contributions focused on data augmentation and ensembling of multiple models. In the simultaneous speech translation track, we build on Transformer-based wait-k models for the text-to-text subtask. For speech-to-text simultaneous translation, we attach a wait-k MT system to a hybrid ASR system. We propose an algorithm to control the latency of the ASR+MT cascade and achieve a good latency-quality trade-off on both subtasks.
2019
pdf
abs
Curriculum d’apprentissage : reconnaissance d’entités nommées pour l’extraction de concepts sémantiques (Curriculum learning : named entity recognition for semantic concept extraction)
Antoine Caubrière
|
Natalia Tomashenko
|
Yannick Estève
|
Antoine Laurent
|
Emmanuel Morin
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume I : Articles longs
Dans cet article, nous présentons une approche de bout en bout d’extraction de concepts sémantiques de la parole. En particulier, nous mettons en avant l’apport d’une chaîne d’apprentissage successif pilotée par une stratégie de curriculum d’apprentissage. Dans la chaîne d’apprentissage mise en place, nous exploitons des données françaises annotées en entités nommées que nous supposons être des concepts plus génériques que les concepts sémantiques liés à une application informatique spécifique. Dans cette étude, il s’agit d’extraire des concepts sémantiques dans le cadre de la tâche MEDIA. Pour renforcer le système proposé, nous exploitons aussi des stratégies d’augmentation de données, un modèle de langage 5-gramme, ainsi qu’un mode étoile aidant le système à se concentrer sur les concepts et leurs valeurs lors de l’apprentissage. Les résultats montrent un intérêt à l’utilisation des données d’entités nommées, permettant un gain relatif allant jusqu’à 6,5 %.
2018
pdf
Evaluation of Feature-Space Speaker Adaptation for End-to-End Acoustic Models
Natalia Tomashenko
|
Yannick Estève
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)
2016
pdf
abs
Exploration de paramètres acoustiques dérivés de GMM pour l’adaptation non supervisée de modèles acoustiques à base de réseaux de neurones profonds (Exploring GMM-derived features for unsupervised adaptation of deep neural network acoustic models)
Natalia Tomashenko
|
Yuri Khokhlov
|
Anthony Larcher
|
Yannick Estève
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
L’étude présentée dans cet article améliore une méthode récemment proposée pour l’adaptation de modèles acoustiques markoviens couplés à un réseau de neurones profond (DNN-HMM). Cette méthode d’adaptation utilise des paramètres acoustiques dérivés de mixtures de modèles Gaussiens (GMM-derived features, GMMD ). L’amélioration provient de l’emploi de scores et de mesures de confiance calculés à partir de graphes construits dans le cadre d’un algorithme d’adaptation conventionnel dit de maximum a posteriori (MAP). Une version modifiée de l’adaptation MAP est appliquée sur le modèle GMM auxiliaire utilisé dans une procédure d’apprentissage adaptatif au locuteur (speaker adaptative training, SAT) lors de l’apprentissage du DNN. Des expériences menées sur le corpus Wall Street Journal (WSJ0) montrent que la technique d’adaptation non supervisée proposée dans cet article permet une réduction relative de 8, 4% du taux d’erreurs sur les mots (WER), par rapport aux résultats obtenus avec des modèles DNN-HMM indépendants du locuteur utilisant des paramètres acoustiques plus conventionnels.