Un nouveau schéma de pondération pour la catégorisation de documents manuscrits
Sebastián Peña Saldarriaga, Emmanuel Morin, Christian Viard-Gaudin
Abstract
Les schémas de pondération utilisés habituellement en catégorisation de textes, et plus généralement en recherche d’information (RI), ne sont pas adaptés à l’utilisation de données liées à des textes issus d’un processus de reconnaissance de l’écriture. En particulier, les candidats-mot à la reconnaissance ne pourraient être exploités sans introduire de fausses occurrences de termes dans le document. Dans cet article nous présentons un nouveau schéma de pondération permettant d’exploiter les listes de candidats-mot. Il permet d’estimer le pouvoir discriminant d’un terme en fonction de la probabilité a posteriori d’un candidat-mot dans une liste de candidats. Les résultats montrent que le taux de classification de documents fortement dégradés peut être amélioré en utilisant le schéma proposé.- Anthology ID:
- 2009.jeptalnrecital-court.43
- Volume:
- Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
- Month:
- June
- Year:
- 2009
- Address:
- Senlis, France
- Editors:
- Adeline Nazarenko, Thierry Poibeau
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA
- Note:
- Pages:
- 394–403
- Language:
- French
- URL:
- https://preview.aclanthology.org/add_missing_videos/2009.jeptalnrecital-court.43/
- DOI:
- Cite (ACL):
- Sebastián Peña Saldarriaga, Emmanuel Morin, and Christian Viard-Gaudin. 2009. Un nouveau schéma de pondération pour la catégorisation de documents manuscrits. In Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts, pages 394–403, Senlis, France. ATALA.
- Cite (Informal):
- Un nouveau schéma de pondération pour la catégorisation de documents manuscrits (Peña Saldarriaga et al., JEP/TALN/RECITAL 2009)
- PDF:
- https://preview.aclanthology.org/add_missing_videos/2009.jeptalnrecital-court.43.pdf