Abstract
Les disfluences (répétitions, amorces, autocorrections, constructions inachevées, etc.) inhérentes à toute production orale spontanée constituent une réelle difficulté en termes d’annotation. En effet, l’annotation de ces phénomènes se révèle difficilement automatisable dans la mesure où leur étude réclame un jugement éminemment interprétatif. Dans cet article, nous présentons une méthodologie applicable à l’annotation des disfluences (ou « phénomènes de production ») que l’on rencontre fréquemment dans les corpus oraux. Le fait de constituer un tel corpus de données annotées, permet non seulement de représenter certains aspects pertinents de l’oral (de manière à servir de base aux observations et aux comparaisons avec d’autres données) mais aussi d’améliorer in fine le traitement automatique de l’oral (notamment l’analyse syntaxique automatique).- Anthology ID:
- 2007.jeptalnrecital-recitalposter.7
- Volume:
- Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)
- Month:
- June
- Year:
- 2007
- Address:
- Toulouse, France
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA
- Note:
- Pages:
- 397–406
- Language:
- French
- URL:
- https://aclanthology.org/2007.jeptalnrecital-recitalposter.7
- DOI:
- Cite (ACL):
- Marie Piu and Rémi Bove. 2007. Annotation des disfluences dans les corpus oraux. In Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters), pages 397–406, Toulouse, France. ATALA.
- Cite (Informal):
- Annotation des disfluences dans les corpus oraux (Piu & Bove, JEP/TALN/RECITAL 2007)
- PDF:
- https://preview.aclanthology.org/ingestion-script-update/2007.jeptalnrecital-recitalposter.7.pdf