Christine Jacquin


2019

pdf
Réutilisation de Textes dans les Manuscrits Anciens (Text Reuse in Ancient Manuscripts)
Amir Hazem | Béatrice Daille | Dominique Stutzmann | Jacob Currie | Christine Jacquin
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts

Nous nous intéressons dans cet article à la problématique de réutilisation de textes dans les livres liturgiques du Moyen Âge. Plus particulièrement, nous étudions les variations textuelles de la prière Obsecro Te souvent présente dans les livres d’heures. L’observation manuelle de 772 copies de l’Obsecro Te a montré l’existence de plus de 21 000 variantes textuelles. Dans le but de pouvoir les extraire automatiquement et les catégoriser, nous proposons dans un premier temps une classification lexico-sémantique au niveau n-grammes de mots pour ensuite rendre compte des performances de plusieurs approches état-de-l’art d’appariement automatique de variantes textuelles de l’Obsecro Te.

pdf bib
Transcription automatique et segmentation thématique de livres d’heures manuscrits [Automatic transcription and thematic segmentation of Books of Hours]
Béatrice Daille | Amir Hazem | Christopher Kermorvant | Martin Maarand | Marie-Laurence Bonhomme | Dominique Stutzmann | Jacob Currie | Christine Jacquin
Traitement Automatique des Langues, Volume 60, Numéro 3 : TAL et humanités numériques [NLP and Digital Humanities]

pdf
Towards Automatic Variant Analysis of Ancient Devotional Texts
Amir Hazem | Béatrice Daille | Dominique Stutzmann | Jacob Currie | Christine Jacquin
Proceedings of the 1st International Workshop on Computational Approaches to Historical Language Change

We address in this paper the issue of text reuse in liturgical manuscripts of the middle ages. More specifically, we study variant readings of the Obsecro Te prayer, part of the devotional Books of Hours often used by Christians as guidance for their daily prayers. We aim at automatically extracting and categorising pairs of words and expressions that exhibit variant relations. For this purpose, we adopt a linguistic classification that allows to better characterize the variants than edit operations. Then, we study the evolution of Obsecro Te texts from a temporal and geographical axis. Finally, we contrast several unsupervised state-of-the-art approaches for the automatic extraction of Obsecro Te variants. Based on the manual observation of 772 Obsecro Te copies which show more than 21,000 variants, we show that the proposed methodology is helpful for an automatic study of variants and may serve as basis to analyze and to depict useful information from devotional texts.

2018

pdf
Ordonnancement de réponses dans les systèmes de dialogue basé sur une similarité contexte/réponse (Response ranking in dialogue systems based on context-response similarity)
Basma El Amel Boussaha | Nicolas Hernandez | Christine Jacquin | Emmanuel Morin
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Construire des systèmes de dialogue qui conversent avec les humains afin de les aider dans leurs tâches quotidiennes est devenu une priorité. Certains de ces systèmes produisent des dialogues en cherchant le meilleur énoncé (réponse) parmi un ensemble d’énoncés candidats. Le choix de la réponse est conditionné par l’historique de la conversation appelé contexte. Ces systèmes ordonnent les énoncés candidats par leur adéquation au contexte, le meilleur est ensuite choisi. Les approches existantes à base de réseaux de neurones profonds sont performantes pour cette tâche. Dans cet article, nous améliorons une approche état de l’art à base d’un dual encodeur LSTM. En se basant sur la similarité sémantique entre le contexte et la réponse, notre approche apprend à mieux distinguer les bonnes réponses des mauvaises. Les résultats expérimentaux sur un large corpus de chats d’Ubuntu montrent une amélioration significative de 7, 6 et 2 points sur le Rappel@(1, 2 et 5) respectivement par rapport au meilleur système état de l’art.

2011

pdf
TTC TermSuite : une chaîne de traitement pour la fouille terminologique multilingue (TTC TermSuite: a processing chain for multilingual terminology mining)
Béatrice Daille | Christine Jacquin | Laura Monceaux | Emmanuel Morin | Jérome Rocheteau
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

pdf
Reduction of Search Space to Annotate Monolingual Corpora
Prajol Shrestha | Christine Jacquin | Beatrice Daille
Proceedings of 5th International Joint Conference on Natural Language Processing

2006

pdf
Systèmes question-réponse et EuroWordNet
Christine Jacquin | Laura Monceaux | Emmanuel Desmontils
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Pour améliorer l’efficacité des systèmes de recherche d’informations précises, l’utilisation de connaissances sémantiques est nécessaire. Cependant pour le français, les outils de connaissances sémantiques telles les thesaurus sur domaine ouvert ne sont d’une part pas très nombreux et d’autre part pas suffisamment complets. Dans cet article, nous expliquons premièrement, l’intérêt de l’utilisation de connaissances sémantiques pour un système de question réponse. Puis, nous présentons le thesaurus EuroWordNet, notamment ses limites et les améliorations que nous avons effectuées pour la base française dans un souci de le rendre plus satisfaisant pour notre application par l’ajout de relations inexistantes entre concepts et de définitions par le biais de l’encyclopédieWikipedia (2006).