Abstract
Dans cet article, nous introduisons une méthode à base de règles permettant d’extraire automatiquement de l’historique des éditions de l’encyclopédie collaborative Wikipédia des corrections orthographiques. Cette méthode nous a permis de construire un corpus d’erreurs composé de 72 483 erreurs lexicales (non-word errors) et 74 100 erreurs grammaticales (real-word errors). Il n’existe pas, à notre connaissance, de plus gros corpus d’erreurs écologiques librement disponible. En outre, les techniques mises en oeuvre peuvent être facilement transposées à de nombreuses autres langues. La collecte de ce corpus ouvre de nouvelles perspectives pour l’étude des erreurs fréquentes ainsi que l’apprentissage et l’évaluation des correcteurs orthographiques automatiques. Plusieurs expériences illustrant son intérêt sont proposées.- Anthology ID:
- 2010.jeptalnrecital-long.13
- Volume:
- Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
- Month:
- July
- Year:
- 2010
- Address:
- Montréal, Canada
- Editors:
- Philippe Langlais, Michel Gagnon
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA
- Note:
- Pages:
- 121–130
- Language:
- French
- URL:
- https://aclanthology.org/2010.jeptalnrecital-long.13
- DOI:
- Cite (ACL):
- Guillaume Wisniewski, Aurélien Max, and François Yvon. 2010. Recueil et analyse d’un corpus écologique de corrections orthographiques extrait des révisions de Wikipédia. In Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 121–130, Montréal, Canada. ATALA.
- Cite (Informal):
- Recueil et analyse d’un corpus écologique de corrections orthographiques extrait des révisions de Wikipédia (Wisniewski et al., JEP/TALN/RECITAL 2010)
- PDF:
- https://preview.aclanthology.org/nschneid-patch-4/2010.jeptalnrecital-long.13.pdf