Christophe Rodrigues

2021

pdf bib abs
Neural Network-Based Generation of Sport Summaries: A Preliminary Study
David Stéphane Belemkoabga | Aurélien Bossard | Abdallah Essa | Christophe Rodrigues | Kévin Sylla
Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2021)

This paper presents a global summarization method for live sport commentaries for which we have a human-written summary available. This method is based on a neural generative summarizer. The amount of data available for training is limited compared to corpora commonly used by neural summarizers. We propose to help the summarizer to learn from a limited amount of data by limiting the entropy of the input texts. This step is performed by a classification into categories derived by a detailed analysis of the human-written summaries. We show that the filtering helps the summarization system to overcome the lack of resources. However, several improving points have emerged from this preliminary study, that we discuss and plan to implement in future work.

2018

pdf bib abs
MOTS : un outil modulaire pour le résumé automatique (MOTS : A Modular Framework for Automatic Summarization )
Valentin Nyzam | Christophe Rodrigues | Aurélien Bossard
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Cet article présente un système open source et modulaire pour le résumé automatique : MOTS, développé en Java. Son architecture permet d’implémenter et tester de nouvelles méthodes de résumé automatique et de les comparer avec des méthodes existantes dans un cadre unifié. Ce système, le premier complètement modulaire pour le résumé automatique permet à l’heure actuelle de définir plus de cent combinaisons de modules afin de résumer automatiquement des textes en langage naturel.

2017

pdf bib abs
An Evolutionary Algorithm for Automatic Summarization
Aurélien Bossard | Christophe Rodrigues
Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP 2017

This paper proposes a novel method to select sentences for automatic summarization based on an evolutionary algorithm. The algorithm explores candidate summaries space following an objective function computed over ngrams probability distributions of the candidate summary and the source documents. This method does not consider a summary as a stack of independent sentences but as a whole text, and makes use of advances in unsupervised summarization evaluation. We compare this sentence extraction method to one of the best existing methods which is based on integer linear programming, and show its efficiency on three different acknowledged corpora.

2015

pdf bib abs
ROBO, an edit distance for sentence comparison Application to automatic summarization
Aurélien Bossard | Christophe Rodrigues
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Dans cet article, nous proposons une mesure de distance entre phrases fondée sur la distance de Levenshtein, doublement pondérée par la fréquence des mots et par le type d’opération réalisée. Nous l’évaluons au sein d’un système de résumé automatique dont la méthode de calcul est volontairement limitée à une approche fondée sur la similarité entre phrases. Nous sommes donc ainsi en mesure d’évaluer indirectement la performance de cette nouvelle mesure de distance.

pdf bib abs
Une Approche évolutionnaire pour le résumé automatique
Aurélien Bossard | Christophe Rodrigues
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Dans cet article, nous proposons une méthode de résumé automatique fondée sur l’utilisation d’un algorithme génétique pour parcourir l’espace des résumés candidats couplé à un calcul de divergence de distribution de probabilités de n-grammes entre résumés candidats et documents source. Cette méthode permet de considérer un résumé non plus comme une accumulation de phrases indépendantes les unes des autres, mais comme un texte vu dans sa globalité. Nous la comparons à une des meilleures méthodes existantes fondée sur la programmation linéaire en nombre entier, et montrons son efficacité sur le corpus TAC 2009.