Véronique Malaisé

2009

pdf bib abs
Relevance of ASR for the Automatic Generation of Keywords Suggestions for TV programs
Véronique Malaisé | Luit Gazendam | Willemijn Heeren | Roeland Ordelman | Hennie Brugman
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Semantic access to multimedia content in audiovisual archives is to a large extent dependent on quantity and quality of the metadata, and particularly the content descriptions that are attached to the individual items. However, the manual annotation of collections puts heavy demands on resources. A large number of archives are introducing (semi) automatic annotation techniques for generating and/or enhancing metadata. The NWO funded CATCH-CHOICE project has investigated the extraction of keywords from textual resources related to TV programs to be archived (context documents), in collaboration with the Dutch audiovisual archives, Sound and Vision. This paper investigates the suitability of Automatic Speech Recognition transcripts produced in the CATCH-CHoral project for generating such keywords, which we evaluate against manual annotations of the documents, and against keywords automatically generated from context documents describing the TV programs’ content.

2008

pdf bib abs
A Common Multimedia Annotation Framework for Cross Linking Cultural Heritage Digital Collections
Hennie Brugman | Véronique Malaisé | Laura Hollink
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)

In the context of the CATCH research program that is currently carried out at a number of large Dutch cultural heritage institutions our ambition is to combine and exchange heterogeneous multimedia annotations between projects and institutions. As first step we designed an Annotation Meta Model: a simple but powerful RDF/OWL model mainly addressing the anchoring of annotations to segments of the many different media types used in the collections of the archives, museums and libraries involved. The model includes support for the annotation of annotations themselves, and of segments of annotation values, to be able to layer annotations and in this way enable projects to process each others annotation data as the primary data for further annotation. On basis of AMM we designed an application programming interface for accessing annotation repositories and implemented it both as a software library and as a web service. Finally, we report on our experiences with the application of model, API and repository when developing web applications for collection managers in cultural heritage institutions.

2007

pdf bib abs
Disambiguating automatic semantic annotation based on a thesaurus structure
Véronique Malaisé | Luit Gazendam | Hennie Brugman
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

The use/use for relationship a thesaurus is usually more complex than the (para-) synonymy recommended in the ISO-2788 standard describing the content of these controlled vocabularies. The fact that a non preferred term can refer to multiple preferred terms (only the latter are relevant in controlled indexing) makes this relationship difficult to use in automatic annotation applications : it generates ambiguity cases. In this paper, we present the CARROT algorithm, meant to rank the output of our Information Extraction pipeline, and how this algorithm can be used to select the relevant preferred term out of different possibilities. This selection is meant to provide suggestions of keywords to human annotators, in order to ease and speed up their daily process and is based on the structure of their thesaurus. We achieve a 95 % success, and discuss these results along with perspectives for this experiment.

pdf bib
Anchoring Dutch Cultural Heritage Thesauri to WordNet: Two Case Studies
Véronique Malaisé | Antoine Isaac | Luit Gazendam | Hennie Brugman
Proceedings of the Workshop on Language Technology for Cultural Heritage Data (LaTeCH 2007).

2006

pdf bib abs
A Web Based General Thesaurus Browser to Support Indexing of Television and Radio Programs
Hennie Brugman | Véronique Malaisé | Luit Gazendam
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)

Documentation and retrieval processes at the Netherlands Institute for Sound and Vision are organized around a common thesaurus. To help improve the quality of these processes the thesaurus was transformed into a RDF/OWL ontology and extended on basis of implicit information and external resources. A thesaurus browser web application was designed, implemented and tested on future users.

2005

pdf bib abs
Recherche en corpus de réponses à des questions définitoires
Véronique Malaisé | Thierry Delbecque | Pierre Zweigenbaum
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Les systèmes de questions-réponses, essentiellement focalisés sur des questions factuelles en domaine ouvert, testent également d’autres tâches, comme le travail en domaine contraint ou la recherche de définitions. Nous nous intéressons ici à la recherche de réponses à des questions « définitoires » portant sur le domaine médical. La recherche de réponses de type définitoire se fait généralement en utilisant deux types de méthodes : celles s’appuyant essentiellement sur le contenu du corpus cible, et celles faisant appel à des connaissances externes. Nous avons choisi de nous limiter au premier de ces deux types de méthodes. Nous présentons une expérience dans laquelle nous réutilisons des patrons de repérage d’énoncés définitoires, conçus pour une autre tâche, pour localiser les réponses potentielles aux questions posées. Nous avons intégré ces patrons dans une chaîne de traitement que nous évaluons sur les questions définitoires et le corpus médical du projet EQueR sur l’évaluation de systèmes de questions-réponses. Cette évaluation montre que, si le rappel reste à améliorer, la « précision » des réponses obtenue (mesurée par la moyenne des inverses de rangs) est honorable. Nous discutons ces résultats et proposons des pistes d’amélioration.

2004

pdf bib abs
Repérage et exploitation d’énoncés définitoires en corpus pour l’aide à la construction d’ontologie
Véronique Malaisé | Pierre Zweigenbaum | Bruno Bachimont
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Pour construire une ontologie, un modéliseur a besoin d’objecter des informations sémantiques sur les termes principaux de son domaine d’étude. Les outils d’exploration de corpus peuvent aider à repérer ces types d’information, et l’identification de couples d’hyperonymes a fait l’objet de plusieurs travaux. Nous proposons d’exploiter des énoncés définitoires pour extraire d’un corpus des informations concernant les trois axes de l’ossature ontologique : l’axe vertical, lié à l’hyperonymie, l’axe horizontal, lié à la co-hyponymie et l’axe transversal, lié aux relations du domaine. Après un rappel des travaux existants en repérage d’énoncés définitoires en TAL, nous développons la méthode que nous avons mise en place, puis nous présentons son évaluation et les premiers résultats obtenus. Leur repérage atteint de 10% à 69% de précision suivant les patrons, celui des unités lexicales varie de 31% à 56%, suivant le référentiel adopté.

pdf bib abs
Repérage de relations terminologiques transversales en corpus
Natalia Grabar | Véronique Malaisé | Aurélia Marcus | Aleksandra Krul
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Les relations transversales encodent des relations spécifiques entre les termes, par exemple localisé-dans, consomme, etc. Elles sont très souvent dépendantes des domaines, voire des corpus. Les méthodes automatiques consacrées au repérage de relations terminologiques plus classiques (hyperonymie, synonymie), peuvent générer occasionnellement les relations transversales. Mais leur repérage et typage restent sujets à une conceptualisation : ces relations ne sont pas attendues et souvent pas connues à l’avance pour un nouveau domaine à explorer. Nous nous attachons ici à leur repérage mais surtout à leur typage. En supposant que les relations sont souvent exprimées par des verbes, nous misons sur l’étude des verbes du corpus et de leurs divers dérivés afin d’aborder plus directement la découverte des relations du domaine. Les expériences montrent que ce point d’attaque peut être intéressant, mais reste pourtant dépendant de la polysémie verbale et de la synonymie.

pdf bib
Detecting Semantic Relations between Terms in Definitions
Véronique Malaisé | Pierre Zweigenbaum | Bruno Bachimont
Proceedings of CompuTerm 2004: 3rd International Workshop on Computational Terminology