Exploiter des modèles de langue pour évaluer des sorties de logiciels d’OCR pour des documents français du XVIIe siècle ()

Jean-Baptiste Tanguy


Abstract
Pour comparer deux sorties de logiciels d’OCR, le Character Error Rate (ou, CER) est fréquemment utilisé. Moyennant l’existence d’une transcription de référence de qualité pour certains documents du corpus, le CER calcule le taux d’erreurs de ces pièces et permet ensuite de sélectionner le logiciel d’OCR le plus adapté. Toutefois, ces transcriptions sont très coûteuses à produire et peuvent freiner certaines études, même prospectives. Nous explorons l’exploitation des modèles de langue en agrégeant selon différentes méthodes les probabilités offertes par ceux-ci pour estimer la qualité d’une sortie d’OCR. L’indice de corrélation Pearson est ici utilisé pour comprendre dans quelle mesure ces estimations issues de modèles de langue co-varient avec le CER, mesure de référence.
Anthology ID:
2020.jeptalnrecital-recital.16
Volume:
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL
Month:
6
Year:
2020
Address:
Nancy, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA et AFCP
Note:
Pages:
205–217
Language:
French
URL:
https://aclanthology.org/2020.jeptalnrecital-recital.16
DOI:
Bibkey:
Cite (ACL):
Jean-Baptiste Tanguy. 2020. Exploiter des modèles de langue pour évaluer des sorties de logiciels d’OCR pour des documents français du XVIIe siècle (). In Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL, pages 205–217, Nancy, France. ATALA et AFCP.
Cite (Informal):
Exploiter des modèles de langue pour évaluer des sorties de logiciels d’OCR pour des documents français du XVIIe siècle () (Tanguy, JEP/TALN/RECITAL 2020)
Copy Citation:
PDF:
https://preview.aclanthology.org/paclic-22-ingestion/2020.jeptalnrecital-recital.16.pdf