@inproceedings{blouin-etal-2022-simulation,
title = "Simulation d`erreurs d'{OCR} dans les syst{\`e}mes de {TAL} pour le traitement de donn{\'e}es anachroniques (Simulation of {OCR} errors in {NLP} systems for processing anachronistic data)",
author = "Blouin, Baptiste and
Favre, Benoit and
Auguste, Jeremy",
editor = "Moncla, Ludovic and
Brando, Carmen",
booktitle = "Actes de la 29e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Atelier TAL et Humanit{\'e}s Num{\'e}riques (TAL-HN)",
month = "6",
year = "2022",
address = "Avignon, France",
publisher = "ATALA",
url = "https://preview.aclanthology.org/add-emnlp-2024-awards/2022.jeptalnrecital-humanum.9/",
pages = "78--87",
language = "fra",
abstract = "L`extraction d`information offre de nouvelles perspectives au sein des recherches historiques. Cependant, la majorit{\'e} des recherches li{\'e}es {\`a} ce domaine s`effectue sur des donn{\'e}es contemporaines. Malgr{\'e} l'{\'e}volution constante des syst{\`e}mes d`OCR, les textes historiques r{\'e}sultant de ce proc{\'e}d{\'e} contiennent toujours de multiples erreurs. Du fait d`un manque de ressources historiques d{\'e}di{\'e}es au TAL, le traitement de ce domaine reste d{\'e}pendant de l`utilisation de ressources contemporaines. De nombreuses {\'e}tudes ont d{\'e}montr{\'e} l`impact n{\'e}gatif que pouvaient avoir les erreurs d`OCR sur les syst{\`e}mes pr{\^e}ts {\`a} l`emploi contemporains. Mais l'{\'e}valuation des nouvelles architectures, proposant des r{\'e}sultats prometteurs sur des donn{\'e}es r{\'e}centes, face {\`a} ce probl{\`e}me reste encore tr{\`e}s minime. Dans cette {\'e}tude, nous quantifions l`impact des erreurs d`OCR sur trois t{\^a}ches d`extraction d`information en utilisant plusieurs architectures de type Transformers. Au vu de ces r{\'e}sultats, nous proposons une approche permettant de r{\'e}duire de plus de 50{\%} cet impact sans avoir recours {\`a} des ressources historiques sp{\'e}cialis{\'e}es."
}
Markdown (Informal)
[Simulation d’erreurs d’OCR dans les systèmes de TAL pour le traitement de données anachroniques (Simulation of OCR errors in NLP systems for processing anachronistic data)](https://preview.aclanthology.org/add-emnlp-2024-awards/2022.jeptalnrecital-humanum.9/) (Blouin et al., JEP/TALN/RECITAL 2022)
ACL