De la linguistique aux statistiques pour indexer des documents dans un référentiel métier

Wilfried Njomgue Sado; Dominique Fontaine

De la linguistique aux statistiques pour indexer des documents dans un référentiel métier

Wilfried Njomgue Sado, Dominique Fontaine

Abstract

Cet article présente une méthode d’indexation automatique de documents basée sur une approche linguistique et statistique. Cette dernière est une combinaison séquentielle de l’analyse linguistique du document à indexer par l’extraction des termes significatifs du document et de l’analyse statistique par la décomposition en valeurs singulières des mots composant le document. La pondération des termes tire avantage de leur contexte local, par rapport au document, global, par rapport à la base de données, et de leur position par rapport aux autres termes, les co-occurrences. Le système d’indexation présenté fait des propositions d’affectations du document à un référentiel métier dont les thèmes sont prédéfinis. Nous présentons les résultats de l’expérimentation de ce système menée sur un corpus des pôles métiers de la société Suez-Environnement.

Anthology ID:: 2005.jeptalnrecital-recitalcourt.9
Volume:: Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (articles courts)
Month:: June
Year:: 2005
Address:: Dourdan, France
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA
Note:
Pages:: 685–690
Language:: French
URL:: https://aclanthology.org/2005.jeptalnrecital-recitalcourt.9
DOI:
Bibkey:
Cite (ACL):: Wilfried Njomgue Sado and Dominique Fontaine. 2005. De la linguistique aux statistiques pour indexer des documents dans un référentiel métier. In Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (articles courts), pages 685–690, Dourdan, France. ATALA.
Cite (Informal):: De la linguistique aux statistiques pour indexer des documents dans un référentiel métier (Njomgue Sado & Fontaine, JEP/TALN/RECITAL 2005)
Copy Citation:
PDF:: https://preview.aclanthology.org/update-css-js/2005.jeptalnrecital-recitalcourt.9.pdf

PDF Cite Search