Aurélia Marques Oliveira


Fixing paper assignments

  1. Please select all papers that belong to the same person.
  2. Indicate below which author they should be assigned to.
Provide a valid ORCID iD here. This will be used to match future papers to this author.
Provide the name of the school or the university where the author has received or will receive their highest degree (e.g., Ph.D. institution for researchers, or current affiliation for students). This will be used to form the new author page ID, if needed.

TODO: "submit" and "cancel" buttons here


2025

pdf bib
Normaliser le moyen français : du graphématique au semi-diplomatique
Sonia Solfrini | Mylène Dejouy | Aurélia Marques Oliveira | Pierre-Olivier Beaulnes
Actes des 18e Rencontres Jeunes Chercheurs en RI (RJCRI) et 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL)

La pré-éditorialisation des documents anciens, comprise comme une automatisation partielle de la préparation éditoriale des données textuelles, est récemment devenue l’un des nouveaux fronts de la recherche en philologie computationnelle. Dans un premier temps, nous définissons cette tâche de TAL (Traitement Automatique du Langage) pour le moyen français et la plaçons dans une chaîne de traitement numérique qui permet la création de données machine-actionable, depuis les sorties de l’OCR (Optical Character Recognition). Ensuite, nous présentons et rendons disponible un ensemble de données d’environ 40 000 lignes, tirées d’un corpus d’imprimés du XVIesiècle, ainsi que les règles de normalisation semi-diplomatique qui ont guidé la préparation des données. Enfin, nous proposons un premier modèle de normalisation automatique, afin de confirmer la faisabilité de la tâche.