@inproceedings{koudoro-parfait-etal-2022-reconnaissance,
title = {Reconnaissance d{'}entit{\'e}s nomm{\'e}es sur des sorties {OCR} bruit{\'e}es : des pistes pour la d{\'e}sambigu{\"i}sation morphologique automatique (Resolution of entity linking issues on noisy {OCR} output : automatic disambiguation tracks)},
author = {Koudoro-Parfait, Caroline and
Lejeune, Ga{\"e}l and
Buth, Richy},
editor = "Moncla, Ludovic and
Brando, Carmen",
booktitle = "Actes de la 29e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Atelier TAL et Humanit{\'e}s Num{\'e}riques (TAL-HN)",
month = "6",
year = "2022",
address = "Avignon, France",
publisher = "ATALA",
url = "https://preview.aclanthology.org/fix-sig-urls/2022.jeptalnrecital-humanum.6/",
pages = "45--55",
language = "fra",
abstract = {La variation dans les donn{\'e}es textuelles, en particulier le bruit, est un facteur limitant la performance des syst{\`e}mes de Reconnaissance d{'}Entit{\'e}s Nomm{\'e}es (REN). Les syst{\`e}mes de REN sont en effet g{\'e}n{\'e}ralement entra{\^i}n{\'e}s sur des donn{\'e}es {\guillemotleft} propres {\guillemotright}, non-bruit{\'e}es, ce qui n{'}est pas le cas des donn{\'e}es des humanit{\'e}s num{\'e}riques obtenues par reconnaissance optique de caract{\`e}res (OCR). De fait, la qualit{\'e} des transcriptions OCR est souvent per{\c{c}}ue comme la source principale des erreurs faites par les outils de REN. Cependant, des r{\'e}sultats obtenus avec diff{\'e}rents syst{\`e}mes REN sur des transcriptions OCR d{'}un corpus du 19{\`e}me si{\`e}cle (ELTeC) tendent {\`a} montrer une certaine robustesse, modulo la pr{\'e}sence de formes bruit{\'e}es, parfois dites {\guillemotleft} contamin{\'e}es {\guillemotright}. La difficult{\'e}, est alors de lier ces formes contamin{\'e}es avec leur forme de r{\'e}f{\'e}rence, par exemple, pour rapprocher la cha{\^i}ne {\guillemotleft} Parisl {\guillemotright}et la cha{\^i}ne {\guillemotleft} Paris {\guillemotright}. Il s{'}agit de mod{\'e}liser le fait que diff{\'e}rentes variations se rapprochent du m{\^e}me terme. Des questions quant {\`a} l{'}automatisation de cette t{\^a}che et sa g{\'e}n{\'e}ralisation {\`a} toutes les variations d{'}un m{\^e}me terme restent ouvertes. Nous montrons dans cet article diff{\'e}rentes exp{\'e}riences visant {\`a} traiter ce probl{\`e}me sous l{`}angle de la d{\'e}sambigu{\"i}sation morphologique des entit{\'e}s nomm{\'e}es (EN) en aval de la cha{\^i}ne de traitement, plut{\^o}t que par la correction en amont des donn{\'e}es de l{'}OCR.}
}
Markdown (Informal)
[Reconnaissance d’entités nommées sur des sorties OCR bruitées : des pistes pour la désambiguïsation morphologique automatique (Resolution of entity linking issues on noisy OCR output : automatic disambiguation tracks)](https://preview.aclanthology.org/fix-sig-urls/2022.jeptalnrecital-humanum.6/) (Koudoro-Parfait et al., JEP/TALN/RECITAL 2022)
ACL