Annotation des disfluences dans les corpus oraux

Marie Piu, Rémi Bove


Abstract
Les disfluences (répétitions, amorces, autocorrections, constructions inachevées, etc.) inhérentes à toute production orale spontanée constituent une réelle difficulté en termes d’annotation. En effet, l’annotation de ces phénomènes se révèle difficilement automatisable dans la mesure où leur étude réclame un jugement éminemment interprétatif. Dans cet article, nous présentons une méthodologie applicable à l’annotation des disfluences (ou « phénomènes de production ») que l’on rencontre fréquemment dans les corpus oraux. Le fait de constituer un tel corpus de données annotées, permet non seulement de représenter certains aspects pertinents de l’oral (de manière à servir de base aux observations et aux comparaisons avec d’autres données) mais aussi d’améliorer in fine le traitement automatique de l’oral (notamment l’analyse syntaxique automatique).
Anthology ID:
2007.jeptalnrecital-recitalposter.7
Volume:
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)
Month:
June
Year:
2007
Address:
Toulouse, France
Editors:
Farah Benamara, Sylwia Ozdowska
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
397–406
Language:
French
URL:
https://aclanthology.org/2007.jeptalnrecital-recitalposter.7
DOI:
Bibkey:
Cite (ACL):
Marie Piu and Rémi Bove. 2007. Annotation des disfluences dans les corpus oraux. In Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters), pages 397–406, Toulouse, France. ATALA.
Cite (Informal):
Annotation des disfluences dans les corpus oraux (Piu & Bove, JEP/TALN/RECITAL 2007)
Copy Citation:
PDF:
https://preview.aclanthology.org/emnlp-22-attachments/2007.jeptalnrecital-recitalposter.7.pdf