Frederik Cailliau


2013

pdf
Lexicons from Comparable Corpora for Multilingual Information Retrieval (Lexiques de corpus comparables et recherche d’information multilingue) [in French]
Frederik Cailliau | Ariane Cavet | Clément De Groc | Claude De Loupy
Proceedings of TALN 2013 (Volume 2: Short Papers)

pdf
Sentiment Analysis for Call-centers (L’analyse des sentiments au service des centres d’appels) [in French]
Frederik Cailliau | Ariane Cavet
Proceedings of TALN 2013 (Volume 3: System Demonstrations)

2012

pdf
La longueur des tours de parole comme critère de sélection de conversations dans un centre d’appels (Turn-taking length as criterion to select call center conversations) [in French]
Philippe Suignard | Frederik Cailliau | Ariane Cavet
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN

2008

pdf
CallSurf: Automatic Transcription, Indexing and Structuration of Call Center Conversational Speech for Knowledge Extraction and Query by Content
Martine Garnier-Rizet | Gilles Adda | Frederik Cailliau | Sylvie Guillemin-Lanne | Claire Waast-Richard | Lori Lamel | Stephan Vanni | Claire Waast-Richard
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)

Being the client’s first interface, call centres worldwide contain a huge amount of information of all kind under the form of conversational speech. If accessible, this information can be used to detect eg. major events and organizational flaws, improve customer relations and marketing strategies. An efficient way to exploit the unstructured data of telephone calls is data-mining, but current techniques apply on text only. The CallSurf project gathers a number of academic and industrial partners covering the complete platform, from automatic transcription to information retrieval and data mining. This paper concentrates on the speech recognition module as it discusses the collection, the manual transcription of the training corpus and the techniques used to build the language model. The NLP techniques used to pre-process the transcribed corpus for data mining are POS tagging, lemmatization, noun group and named entity recognition. Some of them have been especially adapted to the conversational speech characteristics. POS tagging and preliminary data mining results obtained on the manually transcribed corpus are briefly discussed.

2007

pdf
Aides à la navigation dans un corpus de transcriptions d’oral
Frederik Cailliau | Claude De Loupy
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans cet article, nous évaluons les performances de fonctionnalités d’aide à la navigation dans un contexte de recherche dans un corpus audio. Nous montrons que les particularités de la transcription et, en particulier les erreurs, conduisent à une dégradation parfois importante des performances des outils d’analyse. Si la navigation par concepts reste dans des niveaux d’erreur acceptables, la reconnaissance des entités nommées, utilisée pour l’aide à la lecture, voit ses performances fortement baisser. Notre remise en doute de la portabilité de ces fonctions à un corpus oral est néanmoins atténuée par la nature même du corpus qui incite à considérer que toute méthodes permettant de réduire le temps d’accès à l’information est pertinente, même si les outils utilisés sont imparfaits.

2006

pdf
Un modèle pour unifier la gestion de ressources linguistiques en contexte multilingue
Frederik Cailliau
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Le bon fonctionnement d’Intuition, plate-forme de recherche d’information, repose sur le développement et l’intégration d’un grand nombre de ressources linguistiques. Dans un souci de cohérence et de meilleure gestion, l’unification de ressources contenant des connaissances hétérogènes s’impose. Comme Intuition est disponible dans la plupart des langues européennes, cette unification se heurte au facteur multilingue. Pour surmonter les problèmes causés par les différences structurelles entre les langues, une nouvelle architecture linguistique a été conçue et exprimée en UML. Ce méta-modèle est le point de départ pour la nouvelle base de données qui sera le noyau d’un nouvel environnement de travail centré sur son utilisateur, l’expert linguistique. Cet environnement centralisera la gestion de toutes les ressources linguistiques d’Intuition.