Raoul Blin


2022

pdf
Does partial pretranslation can improve low ressourced-languages pairs?
Raoul Blin
Proceedings of the 9th Workshop on Asian Translation

We study the effects of a local and punctual pretranslation of the source corpus on the performance of a Transformer translation model. The pretranslations are performed at the morphological (morpheme translation), lexical (word translation) and morphosyntactic (numeral groups and dates) levels. We focus on small and medium-sized training corpora (50K 2.5M bisegments) and on a linguistically distant language pair (Japanese and French). We find that this type of pretranslation does not lead to significant progress. We describe the motivations of the approach, the specific difficulties of Japanese-French translation. We discuss the possible reasons for the observed underperformance.

2020

pdf
Traduire des corpus pour construire des modèles de traduction neuronaux : une solution pour toutes les langues peu dotées ? (Corpus Translation to Build Translation Models : a Solution for all Low-Resource Languages ?)
Raoul Blin
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

Nous comparons deux usages des langues pivots en traduction automatique neuronale pour des langues peu dotées. Nous nous intéressons au cas où il existe une langue pivot telle que les paires source-pivot et pivot-cible sont bien ou très bien dotées. Nous comparons la traduction séquentielle traditionnelle (source→pivot→cible) et la traduction à l’aide d’un modèle entraîné sur des corpus traduits à l’aide des langues pivot et cible. Les expériences sont menées sur trois langues sources (espagnol, allemand et japonais), une langue pivot (anglais) et une langue cible (français). Nous constatons que quelle que soit la proximité linguistique entre les langues source et pivot, le modèle entraîné sur corpus traduit a de meilleurs résultats que la traduction séquentielle, et bien sûr que la traduction directe.

2018

pdf
Traduction automatique du japonais vers le français Bilan et perspectives (Machine Translation from Japanese to French - Review and Prospects)
Raoul Blin
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Nous étudions la possibilité de construire un dispositif de traduction automatique neuronale du japonais vers le français, capable d’obtenir des résultats à la hauteur de l’état de l’art, sachant que l’on ne peut disposer de grands corpus alignés bilingues. Nous proposons un état de l’art et relevons de nombreux signes d’amélioration de la qualité des traductions, en comparaison aux traductions statistiques jusque-là prédominantes. Nous testons ensuite un des baselines librement disponibles, OpenNMT, qui produit des résultats encourageants. Sur la base de cette expérience, nous proposons plusieurs pistes pour améliorer à terme la traduction et pour compenser le manque de corpus.

2014

pdf
Comparing two analyzers of Japanese corpora for helping linguists: MeCab and Sagace (Comparaison de deux outils d’analyse de corpus japonais pour l’aide au linguiste, Sagace et Mecab) [in French]
Raoul Blin
Proceedings of TALN 2014 (Volume 2: Short Papers)

Search
Co-authors