Dominique Fontaine


2005

pdf
De la linguistique aux statistiques pour indexer des documents dans un référentiel métier
Wilfried Njomgue Sado | Dominique Fontaine
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (articles courts)

Cet article présente une méthode d’indexation automatique de documents basée sur une approche linguistique et statistique. Cette dernière est une combinaison séquentielle de l’analyse linguistique du document à indexer par l’extraction des termes significatifs du document et de l’analyse statistique par la décomposition en valeurs singulières des mots composant le document. La pondération des termes tire avantage de leur contexte local, par rapport au document, global, par rapport à la base de données, et de leur position par rapport aux autres termes, les co-occurrences. Le système d’indexation présenté fait des propositions d’affectations du document à un référentiel métier dont les thèmes sont prédéfinis. Nous présentons les résultats de l’expérimentation de ce système menée sur un corpus des pôles métiers de la société Suez-Environnement.