2023
pdf
abs
Quand des Non-Experts Recherchent des Textes Scientifiques Rapport sur l’action CLEF 2023 SimpleText
Liana Ermakova
|
Stéphane Huet
|
Eric Sanjuan
|
Hosein Azarbonyad
|
Olivier Augereau
|
Jaap Kamps
Actes de CORIA-TALN 2023. Actes de l'atelier "Analyse et Recherche de Textes Scientifiques" (ARTS)@TALN 2023
Le grand public a tendance à éviter les sources fiables telles que la littérature scientifique en raison de leur langage complexe et du manque de connaissances nécessaires. Au lieu de cela, il s’appuie sur des sources superficielles, trouvées sur internet ou dans les médias sociaux et qui sont pourtant souvent publiées pour des raisons commerciales ou politiques, plutôt que pour leur valeur informative. La simplification des textes peut-elle contribuer à supprimer certains de ces obstacles à l’accès ? Cet article présente l’action « CLEF 2023 SimpleText » qui aborde les défis techniques et d’évaluation de l’accès à l’information scientifique pour le grand public. Nous fournissons des données réutilisables et des critères de référence pour la simplification des textes scientifiques et encourageons les recherches visant à faciliter à la compréhension des textes complexes.
2022
pdf
abs
LDApol: vers une méthodologie de contextualisation des discours politiques (LDApol : towards a methodology of political speech contextualisation )
Jeanne Vermeirsche
|
Eric Sanjuan
|
Tania Jiménez
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier TAL et Humanités Numériques (TAL-HN)
Nous comparons les distributions de mots dans les communiqués de presse politiques récents. Nous proposons une méthodologie pour objectiver des associations entre notions participant au débat politique. Nous montrons comment les modèles de langage probabilistes peuvent révéler les concepts sous-jacents en tant qu’associations fortes à plusieurs termes pour aider à clarifier le débat politique, notamment pour la surveillance des médias sociaux. Cette approche tente de modéliser les termes du débat comme des distributions de probabilités d’apparition des mots.
2018
pdf
Building Evaluation Datasets for Cultural Microblog Retrieval
Lorraine Goeuriot
|
Josiane Mothe
|
Philippe Mulhem
|
Eric SanJuan
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)
2014
pdf
abs
Investigating the Image of Entities in Social Media: Dataset Design and First Results
Julien Velcin
|
Young-Min Kim
|
Caroline Brun
|
Jean-Yves Dormagen
|
Eric SanJuan
|
Leila Khouas
|
Anne Peradotto
|
Stephane Bonnevay
|
Claude Roux
|
Julien Boyadjian
|
Alejandro Molina
|
Marie Neihouser
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)
The objective of this paper is to describe the design of a dataset that deals with the image (i.e., representation, web reputation) of various entities populating the Internet: politicians, celebrities, companies, brands etc. Our main contribution is to build and provide an original annotated French dataset. This dataset consists of 11527 manually annotated tweets expressing the opinion on specific facets (e.g., ethic, communication, economic project) describing two French policitians over time. We believe that other researchers might benefit from this experience, since designing and implementing such a dataset has proven quite an interesting challenge. This design comprises different processes such as data selection, formal definition and instantiation of an image. We have set up a full open-source annotation platform. In addition to the dataset design, we present the first results that we obtained by applying clustering methods to the annotated dataset in order to extract the entity images.
2013
pdf
Are Semantically Coherent Topic Models Useful for Ad Hoc Information Retrieval?
Romain Deveaud
|
Eric SanJuan
|
Patrice Bellot
Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)
2011
pdf
abs
Ajout d’informations contextuelles pour la recherche de passages au sein de Wikipédia (Integrating contextual information for passage retrieval in Wikipedia)
Romain Deveaud
|
Eric Sanjuan
|
Patrice Bellot
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
La recherche de passages consiste à extraire uniquement des passages pertinents par rapport à une requête utilisateur plutôt qu’un ensemble de documents entiers. Cette récupération de passages est souvent handicapée par le manque d’informations complémentaires concernant le contexte de la recherche initiée par l’utilisateur. Des études montrent que l’ajout d’informations contextuelles par l’utilisateur peut améliorer les performances des systèmes de recherche de passages. Nous confirmons ces observations dans cet article, et nous introduisons également une méthode d’enrichissement de la requête à partir d’informations contextuelles issues de documents encyclopédiques. Nous menons des expérimentations en utilisant la collection et les méthodes d’évaluation proposées par la campagne INEX. Les résultats obtenus montrent que l’ajout d’informations contextuelles permet d’améliorer significativement les performances de notre système de recherche de passages. Nous observons également que notre approche automatique obtient les meilleurs résultats parmi les différentes approches que nous évaluons.
pdf
Restad : un logiciel d’indexation et de stockage relationnel de contenus XML (Restad: an indexing and relational storing software for XML content)
Yoann Moreau
|
Eric SanJuan
|
Patrice Bellot
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
2010
pdf
abs
Évaluation automatique de résumés avec et sans référence
Juan-Manuel Torres-Moreno
|
Horacio Saggion
|
Iria da Cunha
|
Patricia Velázquez-Morales
|
Eric Sanjuan
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Nous étudions différentes méthodes d’évaluation de résumé de documents basées sur le contenu. Nous nous intéressons en particulier à la corrélation entre les mesures d’évaluation avec et sans référence humaine. Nous avons développé FRESA, un nouveau système d’évaluation fondé sur le contenu qui calcule les divergences entre les distributions de probabilité. Nous appliquons notre système de comparaison aux diverses mesures d’évaluation bien connues en résumé de texte telles que la Couverture, Responsiveness, Pyramids et Rouge en étudiant leurs associations dans les tâches du résumé multi-document générique (francais/anglais), focalisé (anglais) et résumé mono-document générique (français/espagnol).
pdf
Multilingual Summarization Evaluation without Human Models
Horacio Saggion
|
Juan-Manuel Torres-Moreno
|
Iria da Cunha
|
Eric SanJuan
|
Patricia Velázquez-Morales
Coling 2010: Posters
2008
pdf
abs
Enertex : un système basé sur l’énergie textuelle
Silvia Fernández
|
Eric Sanjuan
|
Juan-Manuel Torres-Moreno
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans cet article, nous présentons des applications du système Enertex au Traitement Automatique de la Langue Naturelle. Enertex est basé sur l’énergie textuelle, une approche par réseaux de neurones inspirée de la physique statistique des systèmes magnétiques. Nous avons appliqué cette approche aux problèmes du résumé automatique multi-documents et de la détection de frontières thématiques. Les résultats, en trois langues : anglais, espagnol et français, sont très encourageants.
2007
pdf
bib
abs
Énergie textuelle de mémoires associatives
Silvia Fernández
|
Eric Sanjuan
|
Juan-Manuel Torres-Moreno
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans cet article, nous présentons une approche de réseaux de neurones inspirée de la physique statistique de systèmes magnétiques pour étudier des problèmes fondamentaux du Traitement Automatique de la Langue Naturelle. L’algorithme modélise un document comme un système de neurones où l’on déduit l’énergie textuelle. Nous avons appliqué cette approche aux problèmes de résumé automatique et de détection de frontières thématiques. Les résultats sont très encourageants.
2003
pdf
bib
Complex Structuring of Term Variants for Question Answering
James Dowdall
|
Fabio Rinaldi
|
Fidelia Ibekwe-SanJuan
|
Eric SanJuan
Proceedings of the ACL 2003 Workshop on Multiword Expressions: Analysis, Acquisition and Treatment