This is an internal, incomplete preview of a proposed change to the ACL Anthology.
For efficiency reasons, we don't generate MODS or Endnote formats, and the preview may be incomplete in other ways, or contain mistakes.
Do not treat this content as an official publication.
ElisabethDelais-Roussarie
Also published as:
Élisabeth Delais-Roussarie
Fixing paper assignments
Please select all papers that do not belong to this person.
Indicate below which author they should be assigned to.
Des études récentes supportent l’hypothèse d’une relation entre les propriétés statistiques des signaux de parole et les mécanismes perceptifs : les gammes de fréquence présentant une corrélation dans leurs modulations d’amplitude pourraient être associées à des frontières spectrales relativement stables envisagées comme optimales sur le plan perceptif. Cependant, des limites afférentes à ces études antérieures ressortent : (1) elles se fondent pour la plupart sur des critères subjectifs à travers l’observation visuelle des courbes de résultats statistiques, et (2) elles n’envisagent pas que les résultats puissent varier en fonction des échantillons de données sélectionnés, de la nature des signaux utilisés, ou de la taille des échantillons. Même si cette position peut être argumentée en lien avec l’approche du codage efficace, cet aspect afférent au degré de variation potentiel nécessite d’être évalué. Nous avons mis en place une méthode de détermination automatique des frontières qui permet de répliquer les travaux antérieurs en introduisant une évaluation expérimentale de ces limites et discutons de quelques résultats préliminaires en comparaison avec les études précédentes.
Dans les travaux sur la prosodie du français sont généralement proposés deux ou trois niveaux de structuration prosodique: le syntagme accentuel, le syntagme intermédiaire et le syntagme intonatif. Alors que les auteurs sont souvent d’accord sur les modalités de construction du syntagme accentuel, il n’en est pas de même pour les deux autres niveaux. Dans cet article, nous proposons de redéfinir le syntagme intermédiaire. Cette proposition diffère des autres travaux en deux points. Premièrement, l’extension et le statut du syntagme intermédiaire est clarifié pour en faire une unité métrique. Deuxièmement, une distinction est faite entre cette unité et deux types de syntagme intonatif. Cette proposition se base sur l’inventaire des contours observés à la frontière droite de ces unités et sur l’étude des relations qu’elles entretiennent avec les structures morpho-syntaxique et sémantique. Elle vise à rendre compte du phrasé et du choix des contours intonatifs à un niveau phonologique sous-jacent.
L’hypothèse du codage efficace prédit que les systèmes perceptifs sont optimalement adaptés aux propriétés statistiques des signaux naturels. Ce caractère optimal a été récemment évalué sur la base d’analyses statistiques réalisées sur des décompositions spectrales de signaux de parole représentés comme des modulations d’énergie. Ces travaux pourraient trouver des applications directes dans l’amélioration du codage des signaux acoustiques par des implants cochléaires. Cependant, les recherches sur la perception de la musique par des personnes sourdes portant un implant cochléaire mettent en avant des limites qui semblent discordantes avec les performances observées concernant certaines propriétés fondamentales de la parole. Nous comparons les résultats d’analyses statistiques de signaux musicaux avec ceux qui ont été réalisés sur de la parole dans le but d’évaluer les impacts respectifs de ces deux gammes de signaux sonores pour évaluer leurs contributions à cette proposition théorique. Des résultats préliminaires et les perspectives futures sont discutés.
Pour synthétiser automatiquement et de manière expressive des livres audio, il est nécessaire de connaître le type des discours à oraliser. Ceci étant, dans un roman ou une nouvelle, les perspectives narratives et les types de discours évoluent souvent entre de la narration, du récitatif, du discours direct, du discours rapporté, voire des dialogues. Dans ce travail, nous allons présenter un outil qui a été développé à partir de l’analyse d’un corpus de livres audio (extraits de Madame Bovary et des Mystères de Paris) et qui prend comme unité de base pour l’analyse le paragraphe. Cet outil permet donc non seulement de déterminer automatiquement les types de discours (narration, discours direct, dialogue), et donc de savoir qui parle, mais également d’annoter l’extension des modifications discursives. Ce dernier point est important, notamment dans le cas d’incises de citation où le narrateur reprend la parole dans une séquence au discours direct. Dans sa forme actuelle, l’outil atteint un taux de 89 % de bonne détection.
Ces vingt dernières années, la qualité de la parole synthétique s’est améliorée grâce notamment à l’émergence de nouvelles techniques comme la synthèse par corpus. Mais les patrons rythmiques obtenus ne sont pas toujours perçus comme très naturels. Dans ce papier, nous comparons les patrons rythmiques observés en parole naturelle et synthétique pour trois genres littéraires. Le but de ce travail est d’étudier comment le rythme pourrait être amélioré en synthèse de parole. La comparaison des patrons rythmiques est réalisée grâce à une analyse de la durée relativement à la structure prosodique, les données audio provenant de six comptines, quatre poèmes et deux extraits de conte. Les résultats obtenus laissent penser que les différences rythmiques entre parole naturelle et synthétique sont principalement dues au marquage de la structure prosodique, particulièrement au niveau des groupes intonatifs. De fait, le taux d’allongement des syllabes accentuées en fin de groupes intonatifs est beaucoup plus important en synthèse que dans la parole naturelle.
This paper presents the TYPALOC corpus of French Dysarthric and Healthy speech and the rationale underlying its constitution. The objective is to compare phonetic variation in the speech of dysarthric vs. healthy speakers in different speech conditions (read and unprepared speech). More precisely, we aim to compare the extent, types and location of phonetic variation within these different populations and speech conditions. The TYPALOC corpus is constituted of a selection of 28 dysarthric patients (three different pathologies) and of 12 healthy control speakers recorded while reading the same text and in a more natural continuous speech condition. Each audio signal has been segmented into Inter-Pausal Units. Then, the corpus has been manually transcribed and automatically aligned. The alignment has been corrected by an expert phonetician. Moreover, the corpus benefits from an automatic syllabification and an Automatic Detection of Acoustic Phone-Based Anomalies. Finally, in order to interpret phonetic variations due to pathologies, a perceptual evaluation of each patient has been conducted. Quantitative data are provided at the end of the paper.