Rémi Bove


2007

pdf
Annotation des disfluences dans les corpus oraux
Marie Piu | Rémi Bove
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)

Les disfluences (répétitions, amorces, autocorrections, constructions inachevées, etc.) inhérentes à toute production orale spontanée constituent une réelle difficulté en termes d’annotation. En effet, l’annotation de ces phénomènes se révèle difficilement automatisable dans la mesure où leur étude réclame un jugement éminemment interprétatif. Dans cet article, nous présentons une méthodologie applicable à l’annotation des disfluences (ou « phénomènes de production ») que l’on rencontre fréquemment dans les corpus oraux. Le fait de constituer un tel corpus de données annotées, permet non seulement de représenter certains aspects pertinents de l’oral (de manière à servir de base aux observations et aux comparaisons avec d’autres données) mais aussi d’améliorer in fine le traitement automatique de l’oral (notamment l’analyse syntaxique automatique).

2006

pdf
Prise en compte des disfluences dans un système d’analyse syntaxique automatique de l’oral
Rémi Bove | Christine Chardenon | Jean Véronis
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous présentons dans cette étude un essai de prise en compte des disfluences dans un système d’analyse linguistique initialement prévu pour l’écrit, en vue de la réalisation d’un prototype de traduction parole-parole. À partir d’une étude approfondie sur corpus, nous montrons comment des modifications du lexique et de la grammaire ont permis de traiter les cas les plus simples (pauses remplies, répétitions de mots isolés, etc.). D’autres cas plus complexes comme répétitions et auto-corrections de syntagmes ont nécessité la mise au point d’un mécanisme de contrôle sémantique permettant de limiter la combinatoire. Cette étude a mis également en évidence la difficulté de traitement de phénomènes tels que les amorces (mots interrompus) et les constructions inachevées, qui pour l’instant restent sans solution satisfaisante.

2005

pdf
Étude de quelques problèmes de phonétisation dans un système de synthèse de la parole à partir de SMS
Rémi Bove
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues

Cet article présente une étude dont l’objectif était d’améliorer la phonétisation d’un système de synthèse vocale de SMS en ce qui concerne trois types de problèmes : l’écriture rébus (chiffres et lettres utilisés pour leur valeur phonique), les abréviations sous forme de squelettes consonantiques et les agglutinations (déterminants ou pronoms collés graphiquement au mot qui suit). Notre approche se base sur l’analyse d’un corpus de SMS, à partir duquel nous avons extrait des listes de formes permettant de compléter les lexiques du système, et mis au point de nouvelles règles pour les grammaires internes. Les modifications effectuées apportent une amélioration substantielle du système, bien qu’il reste, évidemment, de nombreuses autres classes de problèmes à traiter.