Recueil et analyse d’un corpus écologique de corrections orthographiques extrait des révisions de Wikipédia

Guillaume Wisniewski, Aurélien Max, François Yvon


Abstract
Dans cet article, nous introduisons une méthode à base de règles permettant d’extraire automatiquement de l’historique des éditions de l’encyclopédie collaborative Wikipédia des corrections orthographiques. Cette méthode nous a permis de construire un corpus d’erreurs composé de 72 483 erreurs lexicales (non-word errors) et 74 100 erreurs grammaticales (real-word errors). Il n’existe pas, à notre connaissance, de plus gros corpus d’erreurs écologiques librement disponible. En outre, les techniques mises en oeuvre peuvent être facilement transposées à de nombreuses autres langues. La collecte de ce corpus ouvre de nouvelles perspectives pour l’étude des erreurs fréquentes ainsi que l’apprentissage et l’évaluation des correcteurs orthographiques automatiques. Plusieurs expériences illustrant son intérêt sont proposées.
Anthology ID:
2010.jeptalnrecital-long.13
Volume:
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
July
Year:
2010
Address:
Montréal, Canada
Editors:
Philippe Langlais, Michel Gagnon
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
121–130
Language:
French
URL:
https://aclanthology.org/2010.jeptalnrecital-long.13
DOI:
Bibkey:
Cite (ACL):
Guillaume Wisniewski, Aurélien Max, and François Yvon. 2010. Recueil et analyse d’un corpus écologique de corrections orthographiques extrait des révisions de Wikipédia. In Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 121–130, Montréal, Canada. ATALA.
Cite (Informal):
Recueil et analyse d’un corpus écologique de corrections orthographiques extrait des révisions de Wikipédia (Wisniewski et al., JEP/TALN/RECITAL 2010)
Copy Citation:
PDF:
https://preview.aclanthology.org/nschneid-patch-4/2010.jeptalnrecital-long.13.pdf