2014
pdf
abs
Thematic Cohesion: measuring terms discriminatory power toward themes
Clément de Groc
|
Xavier Tannier
|
Claude de Loupy
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)
We present a new measure of thematic cohesion. This measure associates each term with a weight representing its discriminatory power toward a theme, this theme being itself expressed by a list of terms (a thematic lexicon). This thematic cohesion criterion can be used in many applications, such as query expansion, computer-assisted translation, or iterative construction of domain-specific lexicons and corpora. The measure is computed in two steps. First, a set of documents related to the terms is gathered from the Web by querying a Web search engine. Then, we produce an oriented co-occurrence graph, where vertices are the terms and edges represent the fact that two terms co-occur in a document. This graph can be interpreted as a recommendation graph, where two terms occurring in a same document means that they recommend each other. This leads to using a random walk algorithm that assigns a global importance value to each vertex of the graph. After observing the impact of various parameters on those importance values, we evaluate their correlation with retrieval effectiveness.
2013
pdf
Lexicons from Comparable Corpora for Multilingual Information Retrieval (Lexiques de corpus comparables et recherche d’information multilingue) [in French]
Frederik Cailliau
|
Ariane Cavet
|
Clément De Groc
|
Claude De Loupy
Proceedings of TALN 2013 (Volume 2: Short Papers)
2012
pdf
Un critère de cohésion thématique fondé sur un graphe de cooccurrences (Topical Cohesion using Graph Random Walks) [in French]
Clément de Groc
|
Xavier Tannier
|
Claude de Loupy
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN
2011
pdf
Babouk – exploration orientée du web pour la constitution de corpus et de terminologies (Babouk – oriented exploration of the web for the construction of corpora and terminologies)
Clément de Groc
|
Javier Couto
|
Helena Blancafort
|
Claude de Loupy
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
pdf
LOL : Langage objet dédié à la programmation linguistique (LOL: Object-oriented language dedicated to linguistic programming)
Jimmy Ma
|
Mickaël Mounier
|
Helena Blancafort
|
Javier Couto
|
Claude de Loupy
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
pdf
Knowledge-Poor Approach to Shallow Parsing: Contribution of Unsupervised Part-of-Speech Induction
Marie Guégan
|
Claude de Loupy
Proceedings of the International Conference Recent Advances in Natural Language Processing 2011
2010
pdf
abs
OAL: A NLP Architecture to Improve the Development of Linguistic Resources for NLP
Javier Couto
|
Helena Blancafort
|
Somara Seng
|
Nicolas Kuchmann-Beauger
|
Anass Talby
|
Claude de Loupy
Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10)
The performance of most NLP applications relies upon the quality of linguistic resources. The creation, maintenance and enrichment of those resources are a labour-intensive task, especially when no tools are available. In this paper we present the NLP architecture OAL, designed to assist computational linguists in the whole process of the development of resources in an industrial context: from corpora compilation to quality assurance. To add new words more easily to the morphosyntactic lexica, a guesser that lemmatizes and assigns morphosyntactic tags as well as inflection paradigms to a new word has been developed. Moreover, different control mechanisms are set up to check the coherence and consistency of the resources. Today OAL manages resources in five European languages: French, English, Spanish, Italian and Polish. Chinese and Portuguese are in process. The development of OAL has followed an incremental strategy. At present, semantic lexica, a named entities guesser and a named entities phonetizer are being developed.
pdf
abs
A French Human Reference Corpus for Multi-Document Summarization and Sentence Compression
Claude de Loupy
|
Marie Guégan
|
Christelle Ayache
|
Somara Seng
|
Juan-Manuel Torres Moreno
Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10)
This paper presents two corpora produced within the RPM2 project: a multi-document summarization corpus and a sentence compression corpus. Both corpora are in French. The first one is the only one we know in this language. It contains 20 topics with 20 documents each. A first set of 10 documents per topic is summarized and then the second set is used to produce an update summarization (new information). 4 annotators were involved and produced a total of 160 abstracts. The second corpus contains all the sentences of the first one. 4 annotators were asked to compress the 8432 sentences. This is the biggest corpus of compressed sentences we know, whatever the language. The paper provides some figures in order to compare the different annotators: compression rates, number of tokens per sentence, percentage of tokens kept according to their POS, position of dropped tokens in the sentence compression phase, etc. These figures show important differences from an annotator to the other. Another point is the different strategies of compression used according to the length of the sentence.
2009
pdf
abs
Association automatique de lemmes et de paradigmes de flexion à un mot inconnu
Claude De Loupy
|
Michaël Bagur
|
Helena Blancafort
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
La maintenance et l’enrichissement des lexiques morphosyntaxiques sont souvent des tâches fastidieuses. Dans cet article nous présentons la mise en place d’une procédure de guessing de flexion afin d’aider les linguistes dans leur travail de lexicographes. Le guesser développé ne fait pas qu’évaluer l’étiquette morphosyntaxique comme c’est généralement le cas. Il propose pour un mot français inconnu, un ou plusieurs candidats-lemmes, ainsi que les paradigmes de flexion associés (formes fléchies et étiquettes morphosyntaxiques). Dans cet article, nous décrivons le modèle probabiliste utilisé ainsi que les résultats obtenus. La méthode utilisée permet de réduire considérablement le nombre de règles à valider, permettant ainsi un gain de temps important.
2007
pdf
abs
Aides à la navigation dans un corpus de transcriptions d’oral
Frederik Cailliau
|
Claude De Loupy
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans cet article, nous évaluons les performances de fonctionnalités d’aide à la navigation dans un contexte de recherche dans un corpus audio. Nous montrons que les particularités de la transcription et, en particulier les erreurs, conduisent à une dégradation parfois importante des performances des outils d’analyse. Si la navigation par concepts reste dans des niveaux d’erreur acceptables, la reconnaissance des entités nommées, utilisée pour l’aide à la lecture, voit ses performances fortement baisser. Notre remise en doute de la portabilité de ces fonctions à un corpus oral est néanmoins atténuée par la nature même du corpus qui incite à considérer que toute méthodes permettant de réduire le temps d’accès à l’information est pertinente, même si les outils utilisés sont imparfaits.
2004
pdf
Browsing Help for a Faster Retrieval
Eric Crestan
|
Claude de Loupy
COLING 2004: Proceedings of the 20th International Conference on Computational Linguistics
2003
pdf
abs
Peut-on trouver la taille de contexte optimale en désambiguïsation sémantique?
Éric Crestan
|
Marc El-Bèze
|
Claude De Loupy
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans la tâche de désambiguïsation sémantique, la détermination de la taille optimale de fenêtre de contexte à utiliser, a fait l’objet de plusieurs études. Dans cet article, nous proposons une approche à deux niveaux pour répondre à cette problématique de manière automatique. Trois systèmes concurrents à base d’arbres de classification sémantique sont, dans un premier temps, utilisés pour déterminer les trois sens les plus vraisemblables d’un mot. Ensuite, un système décisionnel tranche entre ces sens au regard d’un contexte plus étendu. Les améliorations constatées lors d’expériences menées sur les données de SENSEVAL-1 et vérifiées sur les données SENSEVAL-2 sont significatives.
2002
pdf
abs
Évaluation des taux de synonymie et de polysémie dans un texte
Claude De Loupy
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
La polysémie et la synonymie sont deux aspects fondamentaux de la langue. Nous présentons ici une évaluation de l’importance de ces deux phénomènes à l’aide de statistiques basées sur le lexique WordNet et sur le SemCor. Ainsi, on a un taux de polysémie théorique de 5 sens par mot dans le SemCor. Mais si on regarde les occurrences réelles, moins de 50 % des sens possibles sont utilisés. De même, s’il y a, en moyenne, 2,7 mots possibles pour désigner un concept qui apparaît dans le corpus, plus de la moitié d’entre eux ne sont jamais utilisés. Ces résultats relativisent l’utilité de telles ressources sémantiques pour le traitement de la langue.
2001
pdf
abs
L’apport de connaissances linguistiques en recherche documentaire
Claude De Loupy
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Tutoriels
L’utilisation de connaissances et de traitements linguistiques évolués en recherche documentaire ne fait pas l’unanimité dans le milieu scientifique. En effet, de nombreuses expériences semblent montrer que les résultats obtenus ne sont pas améliorés, voire sont parfois dégradés, lorsque de telles connaissances sont utilisées dans un système de RD. Dans ce tutoriel, nous montrons que les environnements d’évaluation ne sont pas adaptés aux besoins réels d’un utilisateur car celui-ci recherche presque toujours une information. Il veut donc retrouver des documents pertinents le plus rapidement possible car ce n’est pas là le but de sa recherche. Le temps global de la recherche est donc fondamentalement important. Néanmoins, le cadre d’évaluation TREC nous permet de montrer que l’utilisation de connaissances linguistiques permet d’augmenter la précision des premiers documents renvoyés, ce qui est très important pour diminuer le temps de recherche.
pdf
Improving WSD with Multi-Level View of Context Monitored by Similarity Measure
Eric Crestan
|
Marc El-Bèze
|
Claude de Loupy
Proceedings of SENSEVAL-2 Second International Workshop on Evaluating Word Sense Disambiguation Systems
2000
pdf
Using Few Clues Can Compensate the Small Amount of Resources Available for Word Sense Disambiguation
Claude de Loupy
|
Marc El-Bèze
Proceedings of the Second International Conference on Language Resources and Evaluation (LREC’00)