2020
pdf
abs
Variation prosodique des styles de parole et interface syntaxe-prosodie: Étude sur corpus à grande échelle (Speaking Style Prosodic Variation and the Prosody-Syntax Interface : A Large-Scale Corpus)
George Christodoulides
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole
La mutualisation et diffusion des grands corpus de parole permet de réexaminer des analyses précédentes effectuées sur des corpus plus petits, afin de vérifier si les conclusions de ces analyses se généralisent aux nouvelles données. Dans cette étude, nous présentons les résultats préliminaires d’une analyse de la variation des styles de parole en français, basée sur un corpus à grande échelle (300 heures, 2500 locuteurs). Le corpus a été réaligné au niveau des phones, syllabes et mots, et une annotation morphosyntaxique et syntaxique a été ajouté en améliorant les annotations existantes. Plusieurs caractéristiques acoustiques et prosodiques sont automatiquement extraites et une analyse statistique (analyse en composantes principales, ACP) est effectuée afin d’explorer les caractéristiques des styles de parole et leur variance. Nous explorons aussi la relation entre frontières prosodique et syntaxiques comme méthode pour discriminer les styles de parole. 1
2018
pdf
abs
Praaline: An Open-Source System for Managing, Annotating, Visualising and Analysing Speech Corpora
George Christodoulides
Proceedings of ACL 2018, System Demonstrations
In this system demonstration we present the latest developments of Praaline, an open-source software system for constituting and managing, manually and automatically annotating, visualising and analysing spoken language and multimodal corpora. We review the system’s functionality and design architecture, present current use cases and directions for future development.
2015
pdf
abs
DisMo : un annotateur multi-niveaux pour les corpus oraux
George Christodoulides
|
Giulia Barreca
|
Mathieu Avanzi
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
Dans cette démonstration, nous présentons l’annotateur multi-niveaux DisMo, un outil conçu pour faire face aux spécificités des corpus oraux. Il fournit une annotation morphosyntaxique, une lemmatisation, une détection des unités poly-lexicales, une détection des phénomènes de disfluence et des marqueurs de discours.
2014
pdf
abs
Praaline: Integrating Tools for Speech Corpus Research
George Christodoulides
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)
This paper presents Praaline, an open-source software system for managing, annotating, analysing and visualising speech corpora. Researchers working with speech corpora are often faced with multiple tools and formats, and they need to work with ever-increasing amounts of data in a collaborative way. Praaline integrates and extends existing time-proven tools for spoken corpora analysis (Praat, Sonic Visualiser and a bridge to the R statistical package) in a modular system, facilitating automation and reuse. Users are exposed to an integrated, user-friendly interface from which to access multiple tools. Corpus metadata and annotations may be stored in a database, locally or remotely, and users can define the metadata and annotation structure. Users may run a customisable cascade of analysis steps, based on plug-ins and scripts, and update the database with the results. The corpus database may be queried, to produce aggregated data-sets. Praaline is extensible using Python or C++ plug-ins, while Praat and R scripts may be executed against the corpus data. A series of visualisations, editors and plug-ins are provided. Praaline is free software, released under the GPL license (www.praaline.org).
pdf
abs
DisMo: A Morphosyntactic, Disfluency and Multi-Word Unit Annotator. An Evaluation on a Corpus of French Spontaneous and Read Speech
George Christodoulides
|
Mathieu Avanzi
|
Jean-Philippe Goldman
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)
We present DisMo, a multi-level annotator for spoken language corpora that integrates part-of-speech tagging with basic disfluency detection and annotation, and multi-word unit recognition. DisMo is a hybrid system that uses a combination of lexical resources, rules, and statistical models based on Conditional Random Fields (CRF). In this paper, we present the first public version of DisMo for French. The system is trained and its performance evaluated on a 57k-token corpus, including different varieties of French spoken in three countries (Belgium, France and Switzerland). DisMo supports a multi-level annotation scheme, in which the tokenisation to minimal word units is complemented with multi-word unit groupings (each having associated POS tags), as well as separate levels for annotating disfluencies and discourse phenomena. We present the systems architecture, linguistic resources and its hierarchical tag-set. Results show that DisMo achieves a precision of 95% (finest tag-set) to 96.8% (coarse tag-set) in POS-tagging non-punctuated, sound-aligned transcriptions of spoken French, while also offering substantial possibilities for automated multi-level annotation.
pdf
A multi-level multimedia concordancer for spoken language corpora (Un concordancier multi-niveaux et multimédia pour des corpus oraux) [in French]
Giulia Barreca
|
George Christodoulides
Proceedings of TALN 2014 (Volume 2: Short Papers)