2018
pdf
Towards an Automatic Text Comprehension for the Arabic Question-Answering: Semantic and Logical Representation of Texts
Wided Bakari
|
Patrice Bellot
|
Mahmoud Neji
Proceedings of the 32nd Pacific Asia Conference on Language, Information and Computation
pdf
abs
LIS at SemEval-2018 Task 2: Mixing Word Embeddings and Bag of Features for Multilingual Emoji Prediction
Gaël Guibon
|
Magalie Ochs
|
Patrice Bellot
Proceedings of the 12th International Workshop on Semantic Evaluation
In this paper we present the system submitted to the SemEval2018 task2 : Multilingual Emoji Prediction. Our system approaches both languages as being equal by first; considering word embeddings associated to automatically computed features of different types, then by applying bagging algorithm RandomForest to predict the emoji of a tweet.
pdf
abs
De l’usage réel des emojis à une prédiction de leurs catégories (From Emoji Usage to Emoji-Category Prediction)
Gaël Guibon
|
Magalie Ochs
|
Patrice Bellot
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
L’utilisation des emojis dans les messageries sociales n’a eu de cesse d’augmenter ces dernières années. Plusieurs travaux récents ont porté sur la prédiction d’emojis afin d’épargner à l’utillisateur le parcours de librairies d’emojis de plus en plus conséquentes. Nous proposons une méthode permettant de récupérer automatiquement les catégories d’emojis à partir de leur contexte d’utilisation afin d’améliorer la prédiction finale. Pour ce faire nous utilisons des plongements lexicaux en considérant les emojis comme des mots présents dans des tweets. Nous appliquons ensuite un regroupement automatique restreint aux emojis visages afin de vérifier l’adéquation des résultats avec la théorie d’Ekman. L’approche est reproductible et applicable sur tous types d’emojis, ou lorsqu’il est nécessaire de prédire de nombreuses classes.
pdf
bib
abs
DEFT2018 : recherche d’information et analyse de sentiments dans des tweets concernant les transports en Île de France (DEFT2018 : Information Retrieval and Sentiment Analysis in Tweets about Public Transportation in Île de France Region )
Patrick Paroubek
|
Cyril Grouin
|
Patrice Bellot
|
Vincent Claveau
|
Iris Eshkol-Taravella
|
Amel Fraisse
|
Agata Jackiewicz
|
Jihen Karoui
|
Laura Monceaux
|
Juan-Manuel Torres-Moreno
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
Cet article présente l’édition 2018 de la campagne d’évaluation DEFT (Défi Fouille de Textes). A partir d’un corpus de tweets, quatre tâches ont été proposées : identifier les tweets sur la thématique des transports, puis parmi ces derniers, identifier la polarité (négatif, neutre, positif, mixte), identifier les marqueurs de sentiment et la cible, et enfin, annoter complètement chaque tweet en source et cible des sentiments exprimés. Douze équipes ont participé, majoritairement sur les deux premières tâches. Sur l’identification de la thématique des transports, la micro F-mesure varie de 0,827 à 0,908. Sur l’identification de la polarité globale, la micro F-mesure varie de 0,381 à 0,823.
2017
pdf
abs
Une plateforme de recommandation automatique d’emojis (An emoji recommandation platform)
Gaël Guibon
|
Magalie Ochs
|
Patrice Bellot
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 - Démonstrations
Nous présentons une interface de recommandation d’emojis porteurs de sentiments qui utilise un modèle de prédiction appris sur des messages informels privés. Chacun étant associé à deux scores de polarité prédits. Cette interface permet permet également d’enregistrer les choix de l’utilisateur pour confirmer ou infirmer la recommandation.
pdf
abs
LSIS at SemEval-2017 Task 4: Using Adapted Sentiment Similarity Seed Words For English and Arabic Tweet Polarity Classification
Amal Htait
|
Sébastien Fournier
|
Patrice Bellot
Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017)
We present, in this paper, our contribution in SemEval2017 task 4 : “Sentiment Analysis in Twitter”, subtask A: “Message Polarity Classification”, for English and Arabic languages. Our system is based on a list of sentiment seed words adapted for tweets. The sentiment relations between seed words and other terms are captured by cosine similarity between the word embedding representations (word2vec). These seed words are extracted from datasets of annotated tweets available online. Our tests, using these seed words, show significant improvement in results compared to the use of Turney and Littman’s (2003) seed words, on polarity classification of tweet messages.
2016
pdf
abs
Bilbo-Val: Automatic Identification of Bibliographical Zone in Papers
Amal Htait
|
Sebastien Fournier
|
Patrice Bellot
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)
In this paper, we present the automatic annotation of bibliographical references’ zone in papers and articles of XML/TEI format. Our work is applied through two phases: first, we use machine learning technology to classify bibliographical and non-bibliographical paragraphs in papers, by means of a model that was initially created to differentiate between the footnotes containing or not containing bibliographical references. The previous description is one of BILBO’s features, which is an open source software for automatic annotation of bibliographic reference. Also, we suggest some methods to minimize the margin of error. Second, we propose an algorithm to find the largest list of bibliographical references in the article. The improvement applied on our model results an increase in the model’s efficiency with an Accuracy equal to 85.89. And by testing our work, we are able to achieve 72.23% as an average for the percentage of success in detecting bibliographical references’ zone.
pdf
LSIS at SemEval-2016 Task 7: Using Web Search Engines for English and Arabic Unsupervised Sentiment Intensity Prediction
Amal Htait
|
Sebastien Fournier
|
Patrice Bellot
Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016)
2015
pdf
Lsislif: Feature Extraction and Label Weighting for Sentiment Analysis in Twitter
Hussam Hamdan
|
Patrice Bellot
|
Frederic Bechet
Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015)
pdf
Lsislif: CRF and Logistic Regression for Opinion Target Extraction and Sentiment Polarity Analysis
Hussam Hamdan
|
Patrice Bellot
|
Frederic Bechet
Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015)
2014
pdf
Impact of the nature and size of the training set on performance in the automatic detection of named entities (Impact de la nature et de la taille des corpus d’apprentissage sur les performances dans la détection automatique des entités nommées) [in French]
Anaïs Ollagnier
|
Sébastien Fournier
|
Patrice Bellot
|
Frédéric Béchet
Proceedings of TALN 2014 (Volume 2: Short Papers)
pdf
Supervised Methods for Aspect-Based Sentiment Analysis
Hussam Hamdan
|
Patrice Bellot
|
Frederic Béchet
Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014)
pdf
The Impact of Z_score on Twitter Sentiment Analysis
Hussam Hamdan
|
Patrice Bellot
|
Frederic Béchet
Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014)
pdf
abs
A Collection of Scholarly Book Reviews from the Platforms of electronic sources in Humanities and Social Sciences OpenEdition.org
Chahinez Benkoussas
|
Hussam Hamdan
|
Patrice Bellot
|
Frédéric Béchet
|
Elodie Faath
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)
In this paper, we present our contribution for the automatic construction of the Scholarly Book Reviews corpora from two different sources, the OpenEdition platform which is dedicated to electronic resources in the humanities and social sciences, and the Web. The main target is the collect of reviews in order to provide automatic links between each review and its potential book in the future. For these purposes, we propose different document representations and we apply some supervised approaches for binary genre classification before evaluating their impact.
2013
pdf
Experiments with DBpedia, WordNet and SentiWordNet as resources for sentiment analysis in micro-blogging
Hussam Hamdan
|
Frederic Béchet
|
Patrice Bellot
Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013)
pdf
Are Semantically Coherent Topic Models Useful for Ad Hoc Information Retrieval?
Romain Deveaud
|
Eric SanJuan
|
Patrice Bellot
Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)
2012
pdf
abs
Annotated Bibliographical Reference Corpora in Digital Humanities
Young-Min Kim
|
Patrice Bellot
|
Elodie Faath
|
Marin Dacos
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)
In this paper, we present new bibliographical reference corpora in digital humanities (DH) that have been developed under a research project, Robust and Language Independent Machine Learning Approaches for Automatic Annotation of Bibliographical References in DH Books supported by Google Digital Humanities Research Awards. The main target is the bibliographical references in the articles of Revues.org site, an oldest French online journal platform in DH field. Since the final object is to provide automatic links between related references and articles, the automatic recognition of reference fields like author and title is essential. These fields are therefore manually annotated using a set of carefully defined tags. After providing a full description of three corpora, which are separately constructed according to the difficulty level of annotation, we briefly introduce our experimental results on the first two corpora. A popular machine learning technique, Conditional Random Field (CRF) is used to build a model, which automatically annotates the fields of new references. In the experiments, we first establish a standard for defining features and labels adapted to our DH reference data. Then we show our new methodology against less structured references gives a meaningful result.
pdf
Combinaison de ressources générales pour une contextualisation implicite de requêtes (Query Contextualization and Reformulation by Combining External Corpora) [in French]
Romain Deveaud
|
Patrice Bellot
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN
2011
pdf
abs
Ajout d’informations contextuelles pour la recherche de passages au sein de Wikipédia (Integrating contextual information for passage retrieval in Wikipedia)
Romain Deveaud
|
Eric Sanjuan
|
Patrice Bellot
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
La recherche de passages consiste à extraire uniquement des passages pertinents par rapport à une requête utilisateur plutôt qu’un ensemble de documents entiers. Cette récupération de passages est souvent handicapée par le manque d’informations complémentaires concernant le contexte de la recherche initiée par l’utilisateur. Des études montrent que l’ajout d’informations contextuelles par l’utilisateur peut améliorer les performances des systèmes de recherche de passages. Nous confirmons ces observations dans cet article, et nous introduisons également une méthode d’enrichissement de la requête à partir d’informations contextuelles issues de documents encyclopédiques. Nous menons des expérimentations en utilisant la collection et les méthodes d’évaluation proposées par la campagne INEX. Les résultats obtenus montrent que l’ajout d’informations contextuelles permet d’améliorer significativement les performances de notre système de recherche de passages. Nous observons également que notre approche automatique obtient les meilleurs résultats parmi les différentes approches que nous évaluons.
pdf
abs
Mesure non-supervisée du degré d’appartenance d’une entité à un type (An unsupervised measure of the degree of belonging of an entity to a type)
Ludovic Bonnefoy
|
Patrice Bellot
|
Michel Benoit
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
La recherche d’entités nommées a été le sujet de nombreux travaux. Cependant, la construction des ressources nécessaires à de tels systèmes reste un problème majeur. Dans ce papier, nous proposons une méthode complémentaire aux outils capables de reconnaître des entités de types larges, dont l’objectif est de déterminer si une entité est d’un type donné, et ce de manière non-supervisée et quel que soit le type. Nous proposons pour cela une approche basée sur la comparaison de modèles de langage estimés à partir du Web. L’intérêt de notre approche est validé par une évaluation sur 100 entités et 273 types différents.
pdf
Restad : un logiciel d’indexation et de stockage relationnel de contenus XML (Restad: an indexing and relational storing software for XML content)
Yoann Moreau
|
Eric SanJuan
|
Patrice Bellot
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
2008
pdf
abs
Quelles combinaisons de scores et de critères numériques pour un système de Questions/Réponses ?
Laurent Gillard
|
Patrice Bellot
|
Marc El-Bèze
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans cet article, nous présentons une discussion sur la combinaison de différents scores et critères numériques pour la sélection finale d’une réponse dans la partie en charge des questions factuelles du système de Questions/Réponses développé au LIA. Ces scores et critères numériques sont dérivés de ceux obtenus en sortie de deux composants cruciaux pour notre système : celui de sélection des passages susceptibles de contenir une réponse et celui d’extraction et de sélection d’une réponse. Ils sont étudiés au regard de leur expressivité. Des comparaisons sont faites avec des approches de sélection de passages mettant en oeuvre des scores conventionnels en recherche d’information. Parallèlement, l’influence de la taille des contextes (en nombre de phrases) est évaluée. Cela permet de mettre en évidence que le choix de passages constitués de trois phrases autour d’une réponse candidate, avec une sélection des réponses basée sur une combinaison entre un score de passage de type Lucene ou Cosine et d’un score de compacité apparaît comme un compromis intéressant.
pdf
abs
Repérage de citations, classification des styles de discours rapporté et identification des constituants citationnels en écrits journalistiques
Fabien Poulard
|
Thierry Waszak
|
Nicolas Hernandez
|
Patrice Bellot
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Dans le contexte de la recherche de plagiat, le repérage de citations et de ses constituants est primordial puisqu’il peut amener à évaluer le caractère licite ou illicite d’une reprise (source citée ou non). Nous proposons ici une comparaison de méthodes automatiques pour le repérage de ces informations et rapportons une évaluation quantitative de celles-ci. Un corpus d’écrits journalistiques français a été manuellement annoté pour nous servir de base d’apprentissage et de test.
pdf
bib
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Patrice Bellot
|
Marie-Laure Guénot
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
pdf
abs
Evaluation of Lexical Resources and Semantic Networks on a Corpus of Mental Associations
Laurianne Sitbon
|
Patrice Bellot
|
Philippe Blache
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)
When a user cannot find a word, he may think of semantically related words that could be used into an automatic process to help him. This paper presents an evaluation of lexical resources and semantic networks for modelling mental associations. A corpus of associations has been constructed for its evaluation. It is composed of 20 low frequency target words each associated 5 times by 20 users. In the experiments we look for the target word in propositions made from the associated words thanks to 5 different resources. The results show that even if each resource has a useful specificity, the global recall is low. An experiment to extract common semantic features of several associations showed that we cannot expect to see the target word below a rank of 20 propositions.
pdf
abs
Evaluating Robustness Of A QA System Through A Corpus Of Real-Life Questions
Laurianne Sitbon
|
Patrice Bellot
|
Philippe Blache
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)
This paper presents the sequential evaluation of the question answering system SQuaLIA. This system is based on the same sequential process as most statistical question answering systems, involving 4 main steps from question analysis to answer extraction.The evaluation is based on a corpus made from 20 questions taken in the set of an evaluation campaign and which were well answered by SQuaLIA. Each of the 20 questions has been typed by 17 native participants, non natives and dyslexics. They were vocally instructed the target of each question. Each of the 4 analysis steps of the system involves a loss of accuracy, until an average of 60 of right answers at the end of the process. The main cause of this loss seems to be the orthographic mistakes users make on nouns.
2007
pdf
abs
Analyse des échecs d’une approche pour traiter les questions définitoires soumises à un système de questions/réponses
Laurent Gillard
|
Patrice Bellot
|
Marc El-Bèze
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Cet article revient sur le type particulier des questions définitoires étudiées dans le cadre des campagnes d’évaluation des systèmes de Questions/Réponses. Nous présentons l’approche développée suite à notre participation à la campagne EQueR et son évaluation lors de QA@CLEF 2006. La réponse proposée est la plus représentative des expressions présentes en apposition avec l’objet à définir, sa sélection est faite depuis des indices dérivés de ces appositions. Environ 80% de bonnes réponses sont trouvées sur les questions définitoires des volets francophones de CLEF. Les cas d’erreurs rencontrés sont analysés et discutés en détail.
pdf
abs
Traitements phrastiques phonétiques pour la réécriture de phrases dysorthographiées
Laurianne Sitbon
|
Patrice Bellot
|
Philippe Blache
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Cet article décrit une méthode qui combine des hypothèses graphémiques et phonétiques au niveau de la phrase, à l’aide d’une réprésentation en automates à états finis et d’un modèle de langage, pour la réécriture de phrases tapées au clavier par des dysorthographiques. La particularité des écrits dysorthographiés qui empêche les correcteurs orthographiques d’être efficaces pour cette tâche est une segmentation en mots parfois incorrecte. La réécriture diffère de la correction en ce sens que les phrases réécrites ne sont pas à destination de l’utilisateur mais d’un système automatique, tel qu’un moteur de recherche. De ce fait l’évaluation est conduite sur des versions filtrées et lemmatisées des phrases. Le taux d’erreurs mots moyen passe de 51 % à 20 % avec notre méthode, et est de 0 % sur 43 % des phrases testées.
2006
pdf
abs
Tools and methods for objective or contextual evaluation of topic segmentation
Laurianne Sitbon
|
Patrice Bellot
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)
In this paper we discuss the way of evaluating topic segmentation, from mathematical measures on variously constructed reference corpus to contextual evaluation depending on different topic segmentation usages. We present an overview of the different ways of building reference corpora and of mathematically evaluating segmentation methods, and then we focus on three tasks which may involve a topic segmentation: text extraction, information retrieval and document presentation. We have developed two graphical interfaces, one for an intrinsic comparison, and the other one dedicated to an evaluation in an information retrieval context. These tools will be very soon distributed under GPL licences on the Technolangue project web page.
pdf
abs
Question Answering Evaluation Survey
L. Gillard
|
P. Bellot
|
M. El-Bèze
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)
Evaluating Question Answering (QA) Systems is a very complex task: state-of-the-art systems involve processing whose influences and contributions on the final result are not clear and need to be studied. We present some key points on different aspects of the QA Systems (QAS) evaluation: mainly, as performed during large-scale campaigns, but also with clues on the evaluation of QAS typical software components; the last part of this paper, is devoted to a brief presentation of the French QA campaign EQueR and presents two issues: inter-annotator agreement during campaign and the reuse of reference patterns.
pdf
abs
Questions Booléennes : Oui ou Non, des Questions et des Réponses
Laurent Gillard
|
Patrice Bellot
|
Marc El-Bèze
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans cet article, nous présentons une approche afin de traiter les questions booléennes, c’est-à-dire des questions dont la réponse peut être un Oui ou un Non, cela, dans le cadre d’un système de Questions-Réponses. En effet, la campagne Technolangue-EQueR, première campagne francophone de Questions-Réponses (QR) utilisant des questions et un corpus en français, a également été la première campagne QR à introduire une évaluation pour ce type de questions. Nous détaillons, parallèlement à notre approche, des pistes de réflexion sur les aspects sous-jacents à ces questions booléennes, notamment au travers d’une analyse des résultats obtenus par notre système dans un contexte similaire à celui de notre participation à la campagne officielle.
pdf
abs
Vers une prédiction automatique de la difficulté d’une question en langue naturelle
Laurianne Sitbon
|
Jens Grivolla
|
Laurent Gillard
|
Patrice Bellot
|
Philippe Blache
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Nous proposons et testons deux méthodes de prédiction de la capacité d’un système à répondre à une question factuelle. Une telle prédiciton permet de déterminer si l’on doit initier un dialogue afin de préciser ou de reformuler la question posée par l’utilisateur. La première approche que nous proposons est une adaptation d’une méthode de prédiction dans le domaine de la recherche documentaire, basée soit sur des machines à vecteurs supports (SVM) soit sur des arbres de décision, avec des critères tels que le contenu des questions ou des documents, et des mesures de cohésion entre les documents ou passages de documents d’où sont extraits les réponses. L’autre approche vise à utiliser le type de réponse attendue pour décider de la capacité du système à répondre. Les deux approches ont été testées sur les données de la campagne Technolangue EQUER des systèmes de questions-réponses en français. L’approche à base de SVM est celle qui obtient les meilleurs résultats. Elle permet de distinguer au mieux les questions faciles, celles auxquelles notre système apporte une bonne réponse, des questions difficiles, celles restées sans réponses ou auxquelles le système a répondu de manière incorrecte. A l’opposé on montre que pour notre système, le type de réponse attendue (personnes, quantités, lieux...) n’est pas un facteur déterminant pour la difficulté d’une question.
2005
pdf
abs
Segmentation thématique par chaînes lexicales pondérées
Laurianne Sitbon
|
Patrice Bellot
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Cet article propose une méthode innovante et efficace pour segmenter un texte en parties thématiquement cohérentes, en utilisant des chaînes lexicales pondérées. Les chaînes lexicales sont construites en fonction de hiatus variables, ou bien sans hiatus, ou encore pondérées en fonction de la densité des occurrences du terme dans la chaîne. D’autre part, nous avons constaté que la prise en compte du repérage d’entités nommées dans la chaîne de traitement, du moins sans résolution des anaphores, n’améliore pas significativement les performances. Enfin, la qualité de la segmentation proposée est stable sur différentes thématiques, ce qui montre une indépendance par rapport au type de document.
2004
pdf
bib
abs
Evaluation de méthodes de segmentation thématique linéaire non supervisées après adaptation au français
Laurianne Sitbon
|
Patrice Bellot
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Nous proposons une évaluation de différentes méthodes et outils de segmentation thématique de textes. Nous présentons les outils de segmentation linéaire et non supervisée DotPlotting, Segmenter, C99, TextTiling, ainsi qu’une manière de les adapter et de les tester sur des documents français. Les résultats des tests montrent des différences en performance notables selon les sujets abordés dans les documents, et selon que le nombre de segments à trouver est fixé au préalable par l’utilisateur. Ces travaux font partie du projet Technolangue AGILE-OURAL.
2003
pdf
abs
Bases de connaissances pour asseoir la crédibilité des réponses d’un système de Q/R
Laurent Gillard
|
Patrice Bellot
|
Marc El-Bèze
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Cet article présente un prototype de Question/Réponse (Q/R) impliquant un ensemble de bases de connaissances (BC) dont l’objectif est d’apporter un crédit supplémentaire aux réponses candidates trouvées. Ces BC et leur influence sur la stratégie d’ordonnancement mise en uvre sont décrites dans le cadre de la participation du système à la campagne Q/R de TREC-2002.