2014
pdf
Classification and Optimization Algorithms: the LIA/ADOC participation at DEFT’14 (Algorithmes de classification et d’optimisation : participation du LIA/ADOC à DEFT’14) [in French]
Luis Adrián Cabrera-Diego
|
Stéphane Huet
|
Bassam Jabaian
|
Alejandro Molina
|
Juan-Manuel Torres-Moreno
|
Marc El-Bèze
|
Barthélémy Durette
TALN-RECITAL 2014 Workshop DEFT 2014 : DÉfi Fouille de Textes (DEFT 2014 Workshop: Text Mining Challenge)
2013
pdf
Well-Argued Recommendation: Adaptive Models Based on Words in Recommender Systems
Julien Gaillard
|
Marc El-Beze
|
Eitan Altman
|
Emmanuel Ethis
Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing
pdf
SegCV : Eficient parsing of résumés with analysis and correction of errors (SegCV : traitement efficace de CV avec analyse et correction d’erreurs) [in French]
Luis Adrián Cabrera-Diego
|
Juan-Manuel Torres-Moreno
|
Marc El-Bèze
Proceedings of TALN 2013 (Volume 2: Short Papers)
pdf
Search and usage of named conceptual entities in a categorisazion task (Recherche et utilisation d’entités nommées conceptuelles dans une tâche de catégorisation) [in French]
Jean-Valère Cossu
|
Juan-Manuel Torres-Moreno
|
Marc El-Bèze
Proceedings of TALN 2013 (Volume 2: Short Papers)
2012
pdf
abs
DECODA: a call-centre human-human spoken conversation corpus
Frederic Bechet
|
Benjamin Maza
|
Nicolas Bigouroux
|
Thierry Bazillon
|
Marc El-Bèze
|
Renato De Mori
|
Eric Arbillot
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)
The goal of the DECODA project is to reduce the development cost of Speech Analytics systems by reducing the need for manual annotat ion. This project aims to propose robust speech data mining tools in the framework of call-center monitoring and evaluation, by means of weakl y supervised methods. The applicative framework of the project is the call-center of the RATP (Paris public transport authority). This project tackles two very important open issues in the development of speech mining methods from spontaneous speech recorded in call-centers : robus tness (how to extract relevant information from very noisy and spontaneous speech messages) and weak supervision (how to reduce the annotation effort needed to train and adapt recognition and classification models). This paper describes the DECODA corpus collected at the RATP during the project. We present the different annotation levels performed on the corpus, the methods used to obtain them, as well as some evaluation o f the quality of the annotations produced.
2009
pdf
abs
Profilage de candidatures assisté par Relevance Feedback
Rémy Kessler
|
Nicolas Béchet
|
Juan-Manuel Torres-Moreno
|
Mathieu Roche
|
Marc El-Bèze
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Le marché d’offres d’emploi et des candidatures sur Internet connaît une croissance exponentielle. Ceci implique des volumes d’information (majoritairement sous la forme de texte libre) qu’il n’est plus possible de traiter manuellement. Une analyse et catégorisation assistées nous semble pertinente en réponse à cette problématique. Nous proposons E-Gen, système qui a pour but l’analyse et catégorisation assistés d’offres d’emploi et des réponses des candidats. Dans cet article nous présentons plusieurs stratégies, reposant sur les modèles vectoriel et probabiliste, afin de résoudre la problématique du profilage des candidatures en fonction d’une offre précise. Nous avons évalué une palette de mesures de similarité afin d’effectuer un classement pertinent des candidatures au moyen des courbes ROC. L’utilisation d’une forme de relevance feedback a permis de surpasser nos résultats sur ce problème difficile et sujet à une grande subjectivité.
2008
pdf
A Scalable MMR Approach to Sentence Scoring for Multi-Document Update Summarization
Florian Boudin
|
Marc El-Bèze
|
Juan-Manuel Torres-Moreno
Coling 2008: Companion volume: Posters
pdf
abs
Extraction automatique d’informations à partir de micro-textes non structurés
Cédric Vidrequin
|
Juan-Manuel Torres-Moreno
|
Jean-Jacques Schneider
|
Marc El-Bèze
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Nous présentons dans cet article une méthode d’extraction automatique d’informations sur des textes de très petite taille, faiblement structurés. Nous travaillons sur des textes dont la rédaction n’est pas normalisée, avec très peu de mots pour caractériser chaque information. Les textes ne contiennent pas ou très peu de phrases. Il s’agit le plus souvent de morceaux de phrases ou d’expressions composées de quelques mots. Nous comparons plusieurs méthodes d’extraction, dont certaines sont entièrement automatiques. D’autres utilisent en partie une connaissance du domaine que nous voulons réduite au minimum, de façon à minimiser le travail manuel en amont. Enfin, nous présentons nos résultats qui dépassent ce dont il est fait état dans la littérature, avec une précision équivalente et un rappel supérieur.
pdf
abs
Quelles combinaisons de scores et de critères numériques pour un système de Questions/Réponses ?
Laurent Gillard
|
Patrice Bellot
|
Marc El-Bèze
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans cet article, nous présentons une discussion sur la combinaison de différents scores et critères numériques pour la sélection finale d’une réponse dans la partie en charge des questions factuelles du système de Questions/Réponses développé au LIA. Ces scores et critères numériques sont dérivés de ceux obtenus en sortie de deux composants cruciaux pour notre système : celui de sélection des passages susceptibles de contenir une réponse et celui d’extraction et de sélection d’une réponse. Ils sont étudiés au regard de leur expressivité. Des comparaisons sont faites avec des approches de sélection de passages mettant en oeuvre des scores conventionnels en recherche d’information. Parallèlement, l’influence de la taille des contextes (en nombre de phrases) est évaluée. Cela permet de mettre en évidence que le choix de passages constitués de trois phrases autour d’une réponse candidate, avec une sélection des réponses basée sur une combinaison entre un score de passage de type Lucene ou Cosine et d’un score de compacité apparaît comme un compromis intéressant.
pdf
abs
E-Gen : Profilage automatique de candidatures
Rémy Kessler
|
Juan-Manuel Torres-Moreno
|
Marc El-Bèze
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
La croissance exponentielle de l’Internet a permis le développement de sites d’offres d’emploi en ligne. Le système E-Gen (Traitement automatique d’offres d’emploi) a pour but de permettre l’analyse et la catégorisation d’offres d’emploi ainsi qu’une analyse et classification des réponses des candidats (Lettre de motivation et CV). Nous présentons les travaux réalisés afin de résoudre la seconde partie : on utilise une représentation vectorielle de texte pour effectuer une classification des pièces jointes contenus dans le mail à l’aide de SVM. Par la suite, une évaluation de la candidature est effectuée à l’aide de différents classifieurs (SVM et n-grammes de mots).
2007
pdf
abs
Analyse des échecs d’une approche pour traiter les questions définitoires soumises à un système de questions/réponses
Laurent Gillard
|
Patrice Bellot
|
Marc El-Bèze
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Cet article revient sur le type particulier des questions définitoires étudiées dans le cadre des campagnes d’évaluation des systèmes de Questions/Réponses. Nous présentons l’approche développée suite à notre participation à la campagne EQueR et son évaluation lors de QA@CLEF 2006. La réponse proposée est la plus représentative des expressions présentes en apposition avec l’objet à définir, sa sélection est faite depuis des indices dérivés de ces appositions. Environ 80% de bonnes réponses sont trouvées sur les questions définitoires des volets francophones de CLEF. Les cas d’erreurs rencontrés sont analysés et discutés en détail.
2006
pdf
abs
Questions Booléennes : Oui ou Non, des Questions et des Réponses
Laurent Gillard
|
Patrice Bellot
|
Marc El-Bèze
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans cet article, nous présentons une approche afin de traiter les questions booléennes, c’est-à-dire des questions dont la réponse peut être un Oui ou un Non, cela, dans le cadre d’un système de Questions-Réponses. En effet, la campagne Technolangue-EQueR, première campagne francophone de Questions-Réponses (QR) utilisant des questions et un corpus en français, a également été la première campagne QR à introduire une évaluation pour ce type de questions. Nous détaillons, parallèlement à notre approche, des pistes de réflexion sur les aspects sous-jacents à ces questions booléennes, notamment au travers d’une analyse des résultats obtenus par notre système dans un contexte similaire à celui de notre participation à la campagne officielle.
pdf
abs
Question Answering Evaluation Survey
L. Gillard
|
P. Bellot
|
M. El-Bèze
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)
Evaluating Question Answering (QA) Systems is a very complex task: state-of-the-art systems involve processing whose influences and contributions on the final result are not clear and need to be studied. We present some key points on different aspects of the QA Systems (QAS) evaluation: mainly, as performed during large-scale campaigns, but also with clues on the evaluation of QAS typical software components; the last part of this paper, is devoted to a brief presentation of the French QA campaign EQueR and presents two issues: inter-annotator agreement during campaign and the reuse of reference patterns.
2005
pdf
abs
Contextes multilingues alignés pour la désambiguïsation sémantique : une étude expérimentale
Boxing Chen
|
Meriam Haddara
|
Olivier Kraif
|
Grégoire Moreau de Montcheuil
|
Marc El-Bèze
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Cet article s’intéresse a la désambiguïsation sémantique d’unités lexicales alignées a travers un corpus multilingue. Nous appliquons une méthode automatique non supervisée basée sur la comparaison de réseaux sémantiques, et nous dégageons un critère permettant de déterminer a priori si 2 unités alignées ont une chance de se désambiguïser mutuellement. Enfin, nous développons une méthode fondée sur un apprentissage a partir de contextes bilingues. En appliquant ce critère afin de déterminer pour quelles unités l’information traductionnelle doit être prise en compte, nous obtenons une amélioration des résultats.
2004
pdf
Using a Word Sense Disambiguation system for translation disambiguation: the LIA-LIDILEM team experiment
Grégoire Moreau de Montcheuil
|
Marc El-Bèze
|
Boxing Chen
|
Olivier Kraif
Proceedings of SENSEVAL-3, the Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text
2003
pdf
abs
Peut-on trouver la taille de contexte optimale en désambiguïsation sémantique?
Éric Crestan
|
Marc El-Bèze
|
Claude De Loupy
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans la tâche de désambiguïsation sémantique, la détermination de la taille optimale de fenêtre de contexte à utiliser, a fait l’objet de plusieurs études. Dans cet article, nous proposons une approche à deux niveaux pour répondre à cette problématique de manière automatique. Trois systèmes concurrents à base d’arbres de classification sémantique sont, dans un premier temps, utilisés pour déterminer les trois sens les plus vraisemblables d’un mot. Ensuite, un système décisionnel tranche entre ces sens au regard d’un contexte plus étendu. Les améliorations constatées lors d’expériences menées sur les données de SENSEVAL-1 et vérifiées sur les données SENSEVAL-2 sont significatives.
pdf
abs
Bases de connaissances pour asseoir la crédibilité des réponses d’un système de Q/R
Laurent Gillard
|
Patrice Bellot
|
Marc El-Bèze
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Cet article présente un prototype de Question/Réponse (Q/R) impliquant un ensemble de bases de connaissances (BC) dont l’objectif est d’apporter un crédit supplémentaire aux réponses candidates trouvées. Ces BC et leur influence sur la stratégie d’ordonnancement mise en uvre sont décrites dans le cadre de la participation du système à la campagne Q/R de TREC-2002.
2001
pdf
Improving WSD with Multi-Level View of Context Monitored by Similarity Measure
Eric Crestan
|
Marc El-Bèze
|
Claude de Loupy
Proceedings of SENSEVAL-2 Second International Workshop on Evaluating Word Sense Disambiguation Systems
2000
pdf
Using Few Clues Can Compensate the Small Amount of Resources Available for Word Sense Disambiguation
Claude de Loupy
|
Marc El-Bèze
Proceedings of the Second International Conference on Language Resources and Evaluation (LREC’00)
1997
pdf
Automatic Lexicon Enhancement by Means of Corpus Tagging
Frederic Bechet
|
Thierry Spriet
|
Marc El-Beze
Interactive Spoken Dialog Systems: Bringing Speech and NLP Together in Real Applications
1992
pdf
Coupling an Automatic Dictation System With a Grammar Checker
Jean-Pierre Chanod
|
Marc El-Beze
|
Sylvie Guillemin-Lanne
COLING 1992 Volume 3: The 14th International Conference on Computational Linguistics