2023
pdf
bib
abs
Impact de l’apprentissage multi-labels actif appliqué aux transformers
Maxime Arens
|
Charles Teissèdre
|
Lucile Callebert
|
Jose G Moreno
|
Mohand Boughanem
Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d'Information et Applications (CORIA)
L’Apprentissage Actif (AA) est largement utilisé en apprentissage automatique afin de réduire l’effort d’annotation. Bien que la plupart des travaux d’AA soient antérieurs aux transformers, le succès récent de ces architectures a conduit la communauté à revisiter l’AA dans le contexte des modèles de langues pré-entraînés.De plus, le mécanisme de fine-tuning, où seules quelques données annotées sont utilisées pour entraîner le modèle sur une nouvelle tâche, est parfaitement en accord avec l’objectif de l’AA. Nous proposons d’étudier l’impact de l’AA dans le contexte des transformers pour la tâche de classification multi-labels. Or la plupart des stratégies AA, lorsqu’elles sont appliquées à ces modèles, conduisent à des temps de calcul excessifs, ce qui empêche leur utilisation au cours d’une interaction homme-machine en temps réel. Afin de pallier ce problème, nous utilisons des stratégies d’AA basées sur l’incertitude. L’article compare six stratégies d’AA basées sur l’incertitude dans le contexte des transformers et montre que si deux stratégies améliorent invariablement les performances, les autres ne surpassent pas l’échantillonnage aléatoire. L’étude montre également que les stratégies performantes ont tendance à sélectionner des ensembles d’instances plus diversifiées pour l’annotation.
2022
pdf
abs
Une chaîne de traitement pour prédire et appréhender la complexité des textes pour enfants d’un point de vue linguistique (A Processing Chain to Explain the Complexity of Texts for Children From a Linguistic and Psycho-linguistic Point of View)
Delphine Battistelli
|
Aline Etienne
|
Rashedur Rahman
|
Charles Teissèdre
|
Gwénolé Lecorvé
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Nos travaux abordent la question de la mesure de la complexité d’un texte vis-à-vis d’une cible de lecteurs, les enfants en âge de lire, au travers de la mise en place d’une chaîne de traitements. Cette chaîne vise à extraire des descripteurs linguistiques, principalement issus de travaux en psycholinguistique et de travaux sur la lisibilité, mobilisables pour appréhender la complexité d’un texte. En l’appliquant sur un corpus de textes de fiction, elle permet d’étudier des corrélations entre certains descripteurs linguistiques et les tranches d’âges associées aux textes par les éditeurs. L’analyse de ces corrélations tend à valider la pertinence de la catégorisation en âges par les éditeurs. Elle justifie ainsi la mobilisation d’un tel corpus pour entraîner à partir des âges éditeurs un modèle de prédiction de l’âge cible d’un texte.
2021
pdf
abs
Outil Interactif et Évolutif pour l’Extraction d’Information dans des Documents Techniques (Interactive and Evolutive Tool for Information Extraction in Technical Documents)
Thiziri Belkacem
|
Charles Teissèdre
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 : Démonstrations
L’accès à l’information dans la documentation technique est une application particulière et complexe du traitement du langage naturel et de la recherche d’information. La difficulté tient aux contraintes propres des langages métier spécialisés et semi-contrôlés. Dans ce document, nous proposons un outil d’accès à l’information dans différents types de documents. Notre solution exploite conjointement la structure organisationnelle des documents et leur contenu informationnel, pour extraire des informations métier dans des différents corpus. Nous proposons un système basé sur des interactions expert-machine dans un cycle d’amélioration continu des modèles d’extraction. Notre approche exploite des modèles d’apprentissage à faible supervision ne nécessitant pas d’expertise en ingénierie des langues. Notre système intègre l’utilisateur dans le processus de qualification de l’information et permet de guider son apprentissage, afin de rendre ses modèles plus performants au fil du temps.
2020
pdf
abs
Similarité sémantique entre phrases : apprentissage par transfert interlingue (Semantic Sentence Similarity : Multilingual Transfer Learning)
Charles Teissèdre
|
Thiziri Belkacem
|
Maxime Arens
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Atelier DÉfi Fouille de Textes
Dans cet article, nous décrivons une approche exploratoire pour entraîner des modèles de langue et résoudre des tâches d’appariement entre phrases issues de corpus en français et relevant du domaine médical. Nous montrons que, dans un contexte où les données d’entraînement sont en nombre restreint, il peut être intéressant d’opérer un apprentissage par transfert, d’une langue dont nous disposons de plus de ressources pour l’entraînement, vers une langue cible moins dotée de données d’entraînement (le français dans notre cas). Les résultats de nos expérimentations montrent que les modèles de langue multilingues sont capables de transférer des représentations d’une langue à l’autre de façon efficace pour résoudre des tâches de similarité sémantique telles que celles proposées dans le cadre de l’édition 2020 du Défi fouille de texte (DEFT).
2014
pdf
Analyse sémantique des adverbiaux de localisation temporelle : application à la recherche d’information [Semantic analysis of temporal location adverbials: application to information retrieval]
Charles Teissèdre
Traitement Automatique des Langues, Volume 55, Numéro 1 : Varia [Varia]
2012
pdf
abs
Temporal Annotation: A Proposal for Guidelines and an Experiment with Inter-annotator Agreement
André Bittar
|
Caroline Hagège
|
Véronique Moriceau
|
Xavier Tannier
|
Charles Teissèdre
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)
This article presents work carried out within the framework of the ongoing ANR (French National Research Agency) project Chronolines, which focuses on the temporal processing of large news-wire corpora in English and French. The aim of the project is to create new and innovative interfaces for visualizing textual content according to temporal criteria. Extracting and normalizing the temporal information in texts through linguistic annotation is an essential step towards attaining this objective. With this goal in mind, we developed a set of guidelines for the annotation of temporal and event expressions that is intended to be compatible with the TimeML markup language, while addressing some of its pitfalls. We provide results of an initial application of these guidelines to real news-wire texts in French over several iterations of the annotation process. These results include inter-annotator agreement figures and an error analysis. Our final inter-annotator agreement figures compare favorably with those reported for the TimeBank 1.2 annotation project.
2011
pdf
abs
Recherche d’information et temps linguistique : une heuristique pour calculer la pertinence des expressions calendaires (Information retrieval and linguistic time: a heuristic to calculate the relevance of calendar expressions)
Charles Teissèdre
|
Delphine Battistelli
|
Jean-Luc Minel
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
A rebours de bon nombre d’applications actuelles offrant des services de recherche d’information selon des critères temporels - applications qui reposent, à y regarder de près, sur une approche consistant à filtrer les résultats en fonction de leur inclusion dans une fenêtre de temps, nous souhaitons illustrer dans cet article l’intérêt d’un service s’appuyant sur un calcul de similarité entre des expressions adverbiales calendaires. Nous décrivons une heuristique pour mesurer la pertinence d’un fragment de texte en prenant en compte la sémantique des expressions calendaires qui y sont présentes. A travers la mise en oeuvre d’un système de recherche d’information, nous montrons comment il est possible de tirer profit de l’indexation d’expressions calendaires présentes dans les textes en définissant des scores de pertinence par rapport à une requête. L’objectif est de faciliter la recherche d’information en offrant la possibilité de croiser des critères de recherche thématique avec des critères temporels.
2010
pdf
abs
Resources for Calendar Expressions Semantic Tagging and Temporal Navigation through Texts
Charles Teissèdre
|
Delphine Battistelli
|
Jean-Luc Minel
Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10)
The linguistic resources presented in this paper are designed for the recognition and semantic tagging of calendar expressions in French. While existing resources generally put the emphasis on describing calendar bases pointed out by calendar expressions (which are considered as named entities), our approach tries to explicit how references to calendar are linguistically built up, taking into account not only the calendar bases but as well the prepositions and units that operate on them, as they provide valuable information on how texts refer to the calendar. The modelling of these expressions led us to consider calendar expressions as a conjunction of operators interacting with temporal references. Though the resources aim to be generic and easily reusable, we illustrate the interest of our approach by using the resources output to feed a text navigation tool that is currently being improved, in order to offer users a way of temporally progressing or navigating in texts.