Génération augmentée de récupération pour les journaux historiques
Trung Tran, Carlos-Emiliano González-Gallardo, Antoine Doucet
Abstract
La numérisation des archives historiques permet d’améliorer leur accessibilité et leur préservation à long terme, ouvrant ainsi de nouvelles perspectives de recherche interdisciplinaire. Cependant, l’ampleur des données disponibles pose des défis considérables. Diverses tâches de traitement automatique du langage naturel, telles que la reconnaissance d’entités nommées et la segmentation en articles, ont permis de faciliter l’accès du public en extrayant et structurant l’information. Néanmoins, l’agrégation des articles de presse historiques demeure largement inexplorée. Ce travail met en évidence le potentiel d’un cadre de génération augmentée de récupération (RAG), combinant des grands modèles de langage, un module de recherche sémantique et des bases de connaissances, pour agréger des articles de journaux historiques. Nous proposons également des métriques d’évaluation des systèmes génératifs ne nécessitant pas de vérité de terrain. Les premiers résultats de notre chaîne de traitement RAG sont prometteurs, démontrant que la récupération sémantique, renforcée par le reranking et la reconnaissance d’entités nommées, peut atténuer les erreurs d’océrisation et les fautes de frappe dans les requêtes.- Anthology ID:
- 2025.jeptalnrecital-coria.12
- Volume:
- Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)
- Month:
- 6
- Year:
- 2025
- Address:
- Marseille, France
- Editors:
- Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA \\& ARIA
- Note:
- Pages:
- 131–134
- Language:
- French
- URL:
- https://preview.aclanthology.org/ingest-emnlp/2025.jeptalnrecital-coria.12/
- DOI:
- Cite (ACL):
- Trung Tran, Carlos-Emiliano González-Gallardo, and Antoine Doucet. 2025. Génération augmentée de récupération pour les journaux historiques. In Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA), pages 131–134, Marseille, France. ATALA \\& ARIA.
- Cite (Informal):
- Génération augmentée de récupération pour les journaux historiques (Tran et al., JEP/TALN/RECITAL 2025)
- PDF:
- https://preview.aclanthology.org/ingest-emnlp/2025.jeptalnrecital-coria.12.pdf