Guy Lapalme

2022

pdf abs
Unsupervised multiple-choice question generation for out-of-domain Q&A fine-tuning
Guillaume Le Berre | Christophe Cerisara | Philippe Langlais | Guy Lapalme
Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)

Pre-trained models have shown very good performances on a number of question answering benchmarks especially when fine-tuned on multiple question answering datasets at once. In this work, we propose an approach for generating a fine-tuning dataset thanks to a rule-based algorithm that generates questions and answers from unannotated sentences. We show that the state-of-the-art model UnifiedQA can greatly benefit from such a system on a multiple-choice benchmark about physics, biology and chemistry it has never been trained on. We further show that improved performances may be obtained by selecting the most challenging distractors (wrong answers), with a dedicated ranker based on a pretrained RoBERTa model.

2021

pdf
Validation of Universal Dependencies by regeneration
Guy Lapalme
Proceedings of the Fifth Workshop on Universal Dependencies (UDW, SyntaxFest 2021)

2020

pdf abs
RDFjsRealB: a Symbolic Approach for Generating Text from RDF Triples
Guy Lapalme
Proceedings of the 3rd International Workshop on Natural Language Generation from the Semantic Web (WebNLG+)

This paper describes the Resource Description Framework (RDF) triples verbalizer developed for the WEB NLG CHALLENGE 2020 shared task. After reviewing representative works in Natural Language Generation in the context of the Semantic Web, the task is then described. We then sketch the symbolic approach we used for verbalizing RDF triples: once the triples are grouped by subject, each group is realized as one or more sentences using templates written in Python whose output is feed to an English realizer written in Javascript. The system was developed using the test data of the previous edition of the task and the train and development data of this year’s task. The automatic scores for this year’s test data are quite competitive. We conclude with a critical review of the data and discuss the suitability of this competition results in a wider Natural Language Generation setting.

2019

pdf abs
Realizing Universal Dependencies Structures
Guy Lapalme
Proceedings of the 2nd Workshop on Multilingual Surface Realisation (MSR 2019)

We first describe a surface realizer forUniversal Dependencies (UD) structures. The system uses a symbolic approach to transform the dependency tree into a tree of constituents that is transformed into an English sentence by an existing realizer. This approach was then adapted for the two shared tasks of SR’19. The system is quite fast and showed competitive results for English sentences using automatic and manual evaluation measures.

Nous décrivons la création d’un environnement web pour aider des apprenants (adolescents ou adultes) à acquérir les automatismes nécessaires pour produire à un débit “normal” les structures fondamentales d’une langue. Notre point de départ est une base de données de phrases, glanées sur le web ou issues de livres scolaires ou de livres de phrases. Ces phrases ont été généralisées (remplacement de mots par des variables) et indexées en termes de buts pour former une arborescence de patrons. Ces deux astuces permettent de motiver l’usage des patrons et de crééer des phrases structurellement identiques à celles rencontrées, tout en étant sémantiquement différentes. Si les notions de ‘patrons’ ou de ‘phrases à trou implicitement typées’ ne sont pas nouvelles, le fait de les avoir portées sur ordinateur pour apprendre des langues l’est. Le système étant conçu pour être ouvert, il permet aux utilisateurs, concepteurs ou apprenants, des changements sur de nombreux points importants : le nom des variables, leurs valeurs, le laps de temps entre une question et sa réponse, etc. La version initiale a été développée pour l’anglais et le japonais. Pour tester la généricité de notre approche nous y avons ajouté relativement facilement le français et le chinois.

pdf abs
Attribution de rôles sémantiques aux actants des lexies verbales (Assigning semantic roles to actants of verbal lexical units)
Fadila Hadouche | Guy Lapalme | Marie-Claude L’Homme
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Dans cet article, nous traitons de l’attribution des rôles sémantiques aux actants de lexies verbales en corpus spécialisé en français. Nous proposons une classification de rôles sémantiques par apprentissage machine basée sur un corpus de lexies verbales annotées manuellement du domaine de l’informatique et d’Internet. Nous proposons également une méthode de partitionnement semi-supervisé pour prendre en compte l’annotation de nouvelles lexies ou de nouveaux rôles sémantiques et de les intégrés dans le système. Cette méthode de partitionnement permet de regrouper les instances d’actants selon les valeurs communes correspondantes aux traits de description des actants dans des groupes d’instances d’actants similaires. La classification de rôles sémantique a obtenu une F-mesure de 93% pour Patient, de 90% pour Agent, de 85% pour Destination et de 76% pour les autres rôles pris ensemble. Quand au partitionnement en regroupant les instances selon leur similarité donne une F-mesure de 88% pour Patient, de 81% pour Agent, de 58% pour Destination et de 46% pour les autres rôles.

pdf
Framework for Abstractive Summarization using Text-to-Text Generation
Pierre-Etienne Genest | Guy Lapalme
Proceedings of the Workshop on Monolingual Text-To-Text Generation

2010

pdf abs
Identification des actants et circonstants par apprentissage machine
Fadila Hadouche | Guy Lapalme | Marie-Claude L’Homme
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans cet article, nous traitons de l’identification automatique des participants actants et circonstants de lexies prédicatives verbales tirées d’un corpus spécialisé en langue française. Les actants contribuent à la réalisation du sens de la lexie alors que les circonstants sont optionnels : ils ajoutent une information supplémentaire qui ne fait pas partie intégrante du sémantisme de la lexie. Nous proposons une classification de ces participants par apprentissage machine basée sur un corpus de lexies verbales du domaine de l’informatique, lexies qui ont été annotées manuellement avec des rôles sémantiques. Nous présentons des features qui nous permettent d’identifier les participants et de distinguer les actants des circonstants.

pdf abs
Jusqu’où peut-on aller avec les méthodes par extraction pour la rédaction de résumés?
Pierre-Etienne Genest | Guy Lapalme | Mehdi Yousfi-Monod
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

La majorité des systèmes de résumés automatiques sont basés sur l’extraction de phrases, or on les compare le plus souvent avec des résumés rédigés manuellement par abstraction. Nous avons mené une expérience dans le but d’établir une limite supérieure aux performances auxquelles nous pouvons nous attendre avec une approche par extraction. Cinq résumeurs humains ont composé 88 résumés de moins de 100 mots, en extrayant uniquement des phrases présentes intégralement dans les documents d’entrée. Les résumés ont été notés sur la base de leur contenu, de leur niveau linguistique et de leur qualité globale par les évaluateurs de NIST dans le cadre de la compétition TAC 2009. Ces résumés ont obtenus de meilleurs scores que l’ensemble des 52 systèmes automatiques participant à la compétition, mais de nettement moins bons que ceux obtenus par les résumeurs humains pouvant formuler les phrases de leur choix dans le résumé. Ce grand écart montre l’insuffisance des méthodes par extraction pure.

pdf abs
Du TAL au TIL
Michael Zock | Guy Lapalme
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Historiquement deux types de traitement de la langue ont été étudiés: le traitement par le cerveau (approche psycholinguistique) et le traitement par la machine (approche TAL). Nous pensons qu’il y a place pour un troisième type: le traitement interactif de la langue (TIL), l’ordinateur assistant le cerveau. Ceci correspond à un besoin réel dans la mesure où les gens n’ont souvent que des connaissances partielles par rapport au problème à résoudre. Le but du TIL est de construire des ponts entre ces connaissances momentanées d’un utilisateur et la solution recherchée. À l’aide de quelques exemples, nous essayons de montrer que ceci est non seulement faisable et souhaitable, mais également d’un coût très raisonnable.

pdf abs
TransSearch : un moteur de recherche de traductions
Julien Bourdaillet | Fabrizio Gotti | Stéphane Huet | Philippe Langlais | Guy Lapalme
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

Malgré les nombreuses études visant à améliorer la traduction automatique, la traduction assistée par ordinateur reste la solution préférée des traducteurs lorsqu’une sortie de qualité est recherchée. Cette démonstration vise à présenter le moteur de recherche de traductions TransSearch. Cetteapplication commerciale, accessible sur leWeb, repose d’une part sur l’exploitation d’un bitexte aligné au niveau des phrases, et d’autre part sur des modèles statistiques d’alignement de mots.

2009

pdf
Classification of Opinions with Non-affective Adverbs and Adjectives
Marina Sokolova | Guy Lapalme
Proceedings of the International Conference RANLP-2009

pdf
Harnessing the Redundant Results of Translation Spotting
Stéphane Huet | Julien Bourdaillet | Philippe Langlais | Guy Lapalme
Proceedings of Machine Translation Summit XII: Posters

2008

pdf abs
Automatic Translation of Court Judgments
Fabrizio Gotti | Guy Lapalme | Elliott Macklovitch | Atefeh Farzindar
Proceedings of the 8th Conference of the Association for Machine Translation in the Americas: Government and Commercial Uses of MT

This document presents an experiment in the automatic translation of Canadian Court judgments from English to French and from French to English. We show that although the language used in this type of legal text is complex and specialized, an SMT system can produce intelligible and useful translations, provided that the system can be trained on a vast amount of legal text. We also describe the results of a human evaluation of the output of the system.

pdf abs
TransSearch: What are translators looking for?
Elliott Macklovitch | Guy Lapalme | Fabrizio Gotti
Proceedings of the 8th Conference of the Association for Machine Translation in the Americas: Government and Commercial Uses of MT

Notwithstanding machine translation’s impressive progress over the last decade, many translators remain convinced that the output of even the best MT systems is not sufficient to facilitate the production of publication-quality texts. To increase their productivity they turn instead to translator support tools. We examine the use of one such tool: TransSearch, an online bilingual concordancer. From the millions of requests stored in the system’s logs over a 6-year period, we extracted and analyzed the most frequently submitted queries, in an effort to characterize the kinds of problems for which translators turn to this system for help. What we discover, somewhat surprisingly, is that our system seems particularly well-suited to help translate highly polysemous adverbials and prepositional phrases.

2007

pdf abs
TransCheck : un vérificateur automatique de traductions
Elliott Macklovitch | Guy Lapalme
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

Nous offrirons une démonstration de la dernière version de TransCheck, un vérificateur automatique de traductions que le RALI est en train de développer. TransCheck prend en entrée deux textes, un texte source dans une langue et sa traduction dans une autre, les aligne au niveau de la phrase et ensuite vérifie les régions alignées pour s’assurer de la présence de certains équivalents obligatoires (p. ex. la terminologie normalisée) et de l’absence de certaines interdictions de traduction (p. ex. des interférences de la langue source). Ainsi, TransCheck se veut un nouveau type d’outil d’aide à la traduction qui pourra à réduire le fardeau de la révision et diminuer le coût du contrôle de la qualité.

2006

pdf abs
Résumé multidocuments orienté par une requête complexe
Atefeh Farzindar | Guy Lapalme
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous présentons un système de synthèse d’information pour la production de résumés multidocuments orientés par une requête complexe. Après une analyse du profil de l’utilisateur exprimé par des questions complexes, nous comparons la similarité entre les documents à résumer avec les questions à deux niveaux : global et détaillé. Cette étude démontre l’importance d’étudier pour une requête la pertinence d’une phrase à l’intérieur de la structure thématique du document. Cette méthodologie a été appliquée lors de notre participation à la campagne d’évaluation DUC 2005 où notre système a été classé parmi les meilleurs.

2005

pdf bib abs
Tracing Translations in the Making
Elliott Macklovitch | Ngoc Tran Nguyen | Guy Lapalme
Proceedings of Machine Translation Summit X: Posters

This paper presents TTPlayer, a trace file analysis tool used to develop TransType, an innovative computer-aided translation system. We first discuss the context of the project and the design of the tracing tool. We show how it was used for discovering interesting patterns of use as well to guide further developments in the TT2 project.

pdf abs
Production automatique du résumé de textes juridiques: évaluation de qualité et d’acceptabilité
Atefeh Farzindar | Guy Lapalme
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous décrivons un projet de production de résumé automatique de textes pour le domaine juridique pour lequel nous avons utilisé un corpus des jugements de la cour fédérale du Canada. Nous présentons notre système de résumé LetSum ainsi que l’évaluation des résumés produits. L’évaluation de 120 résumés par 12 avocats montre que la qualité des résumés produits par LetSum est comparable avec celle des résumés écrits par des humains.

pdf abs
Apprentissage de relations prédicat-argument pour l’extraction d’information à partir de textes conversationnels
Narjès Boufaden | Guy Lapalme
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Nous présentons les résultats de notre approche d’apprentissage de relations prédicat-argument dans le but de générer des patrons d’extraction pour des textes conversationnels. Notre approche s’effectue en trois étapes incluant la segmentation linguistique des textes pour définir des unités linguistiques à l’instar de la phrase pour les textes bien formés tels que les dépêches journalistiques. Cette étape prend en considération la dimension discursive importante dans ces types de textes. La deuxième étape effectue la résolution des anaphores pronominales en position de sujet. Cela tient compte d’une particularité importante des textes conversationnels : la pronominalisation du thème. Nous montrons que la résolution d’un sous ensemble d’anaphores pronominales améliore l’apprentissage des patrons d’extraction. La troisième utilise des modèles de Markov pour modéliser les séquences de classes de mots et leurs rôles pour un ensemble de relations données. Notre approche expérimentée sur des transcriptions de conversations téléphoniques dans le domaine de la recherche et sauvetage identifie les patrons d’extraction avec un F-score moyen de 73,75 %.

pdf abs
Approches en corpus pour la traduction : le cas MÉTÉO
Philippe Langlais | Thomas Leplus | Simona Gandrabur | Guy Lapalme
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

La traduction automatique (TA) attire depuis plusieurs années l’intérêt d’un nombre grandissant de chercheurs. De nombreuses approches sont proposées et plusieurs campagnes d’évaluation rythment les avancées faites. La tâche de traduction à laquelle les participants de ces campagnes se prêtent consiste presque invariablement à traduire des articles journalistiques d’une langue étrangère vers l’anglais; tâche qui peut sembler artificielle. Dans cette étude, nous nous intéressons à savoir ce que différentes approches basées sur les corpus peuvent faire sur une tâche réelle. Nous avons reconstruit à cet effet l’un des plus grands succès de la TA: le système MÉTÉO. Nous montrons qu’une combinaison de mémoire de traduction et d’approches statistiques permet d’obtenir des résultats comparables à celles du système MÉTÉO, tout en offrant un cycle de développement plus court et de plus grandes possibilités d’ajustements.

pdf
From the real world to real words: the METEO case
Philippe Langlais | Thomas Leplus | Simona Gandrabur | Guy Lapalme
Proceedings of the 10th EAMT Conference: Practical applications of machine translation

2004

pdf bib
TransType2 - An Innovative Computer-Assisted Translation System
José Esteban | José Lorenzo | Antonio S. Valderrábanos | Guy Lapalme
Proceedings of the ACL Interactive Poster and Demonstration Sessions

pdf abs
Anonymisation de décisions de justice
Luc Plamondon | Guy Lapalme | Frédéric Pelletier
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

La publication de décisions de justice sur le Web permet de rendre la jurisprudence accessible au grand public, mais il existe des domaines du droit pour lesquels la Loi prévoit que l’identité de certaines personnes doit demeurer confidentielle. Nous développons actuellement un système d’anonymisation automatique à l’aide de l’environnement de développement GATE. Le système doit reconnaître certaines entités nommées comme les noms de personne, les lieux et les noms d’entreprise, puis déterminer automatiquement celles qui sont de nature à permettre l’identification des personnes visées par les restrictions légales à la publication.

pdf abs
Approche statistique pour le repérage de mots informatifs dans les textes oraux
Narjès Boufaden | Yoshua Bengio | Guy Lapalme
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous présentons les résultats de l’approche statistique que nous avons développée pour le repérage de mots informatifs à partir de textes oraux. Ce travail fait partie d’un projet lancé par le département de la défense canadienne pour le développement d’un système d’extraction d’information dans le domaine de la Recherche et Sauvetage maritime (SAR). Il s’agit de trouver et annoter les mots pertinents avec des étiquettes sémantiques qui sont les concepts d’une ontologie du domaine (SAR). Notre méthode combine deux types d’information : les vecteurs de similarité générés grâce à l’ontologie du domaine et le dictionnaire-thésaurus Wordsmyth ; le contexte d’énonciation représenté par le thème. L’évaluation est effectuée en comparant la sortie du système avec les réponses de formulaires d’extraction d’information prédéfinis. Les résultats obtenus sur les textes oraux sont comparables à ceux obtenus dans le cadre de MUC7 pour des textes écrits.

pdf
Legal Text Summarization by Exploration of the Thematic Structure and Argumentative Roles
Atefeh Farzindar | Guy Lapalme
Text Summarization Branches Out

pdf
Adaptive Language and Translation Models for Interactive Machine Translation
Laurent Nepveu | Guy Lapalme | Philippe Langlais | George Foster
Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing

pdf
Evaluating Variants of the Lesk Approach for Disambiguating Words
Florentina Vasilescu | Philippe Langlais | Guy Lapalme
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)

pdf abs
Weather report translation using a translation memory
Thomas Leplus | Philippe Langlais | Guy Lapalme
Proceedings of the 6th Conference of the Association for Machine Translation in the Americas: Technical Papers

We describe the use of a translation memory in the context of a reconstruction of a landmark application of machine translation, the Canadian English to French weather report translation system. This system, which has been in operation for more than 20 years, was developed using a classical symbolic approach. We describe our experiment in developing an alternative approach based on the analysis of hundreds of thousands of weather reports. We show that it is possible to obtain excellent translations using translation memory techniques and we analyze the kinds of translation errors that are induced by this approach.

2003

pdf abs
MDA-XML : une expérience de rédaction contrôlée multilingue basée sur XML
Guy Lapalme | Caroline Brun | Marc Dymetman
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Nous décrivons dans cet article l’implantation d’un système de rédaction contrôlée multilingue dans un environnement XML. Avec ce système, un auteur rédige interactivement un texte se conformant à des règles de bonne formation aux niveaux du contenu sémantique et de la réalisation linguistique décrites par un schéma XML. Nous discutons les avantages de cette approche ainsi que les difficultés rencontrées lors du développement de ce système. Nous concluons avec un exemple d’application à une classe de documents pharmaceutiques.

2002

pdf
User-Friendly Text Prediction For Translators
George Foster | Philippe Langlais | Guy Lapalme
Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP 2002)

pdf abs
Segmentation en thèmes de conversations téléphoniques : traitement en amont pour l’extraction d’information
Narjès Boufaden | Guy Lapalme | Yoshua Bengio
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Nous présentons une approche de découpage thématique que nous utiliserons pour faciliter l’extraction d’information à partir de conversations téléphoniques transcrites. Nous expérimentons avec un modèle de Markov caché utilisant des informations de différents niveaux linguistiques, des marques d’extra-grammaticalités et les entités nommées comme source additionnelle d’information. Nous comparons le modèle obtenu avec notre modèle de base utilisant uniquement les marques linguistiques et les extra-grammaticalités. Les résultats montrent l’efficacité de l’approche utilisant les entités nommées.

pdf
Generating Indicative-Informative Summaries with SumUM
Horacio Saggion | Guy Lapalme
Computational Linguistics, Volume 28, Number 4, December 2002

pdf
Translators at work with TRANSTYPE: Resource and Evaluation.
Philippe Langlais | Marie Loranger | Guy Lapalme
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)

pdf abs
Text prediction with fuzzy alignment
George Foster | Philippe Langlais | Guy Lapalme
Proceedings of the 5th Conference of the Association for Machine Translation in the Americas: Technical Papers

Text prediction is a form of interactive machine translation that is well suited to skilled translators. In recent work it has been shown that simple statistical translation models can be applied within a usermodeling framework to improve translator productivity by over 10% in simulated results. For the sake of efficiency in making real-time predictions, these models ignore the alignment relation between source and target texts. In this paper we introduce a new model that captures fuzzy alignments in a very simple way, and show that it gives modest improvements in predictive performance without significantly increasing the time required to generate predictions.

2001

pdf abs
Integrating bilingual lexicons in a probabilistic translation assistant
Philippe Langlais | George Foster | Guy Lapalme
Proceedings of Machine Translation Summit VIII

In this paper, we present a way to integrate bilingual lexicons into an operational probabilistic translation assistant (TransType). These lexicons could be any resource available to the translator (e.g. terminological lexicons) or any resource statistically derived from training material. We describe a bilingual lexicon acquisition process that we developped and we evaluate from a theoretical point of view its benefits to a translation completion task.

pdf abs
Critères de sélection d’une approche pour le suivi automatique du courriel
Leila Kosseim | Guy Lapalme
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Cet article discute de différentes approches pour faire le suivi automatique du courrier-électronique. Nous présentons tout d’abord les méthodes de traitement automatique de la langue (TAL) les plus utilisées pour cette tâche, puis un ensemble de critères influençant le choix d’une approche. Ces critères ont été développés grâce à une étude de cas sur un corpus fourni par Bell Canada Entreprises. Avec notre corpus, il est apparu que si aucune méthode n’est complètement satisfaisante par elle-même, une approche combinée semble beaucoup plus prometteuse.