Abstract
Le modèle PLSI (« Probabilistic Latent Semantic Indexing ») offre une approche de l’indexation de documents fondée sur des modèles probabilistes de catégories sémantiques latentes et a conduit à des applications dans différents domaines. Toutefois, ce modèle rend impossible le traitement de documents inconnus au moment de l’apprentissage, problème particulièrement sensible pour la représentation des requêtes dans le cadre de la recherche d’information. Une méthode, dite de « folding-in », permet dans une certaine mesure de contourner ce problème, mais présente des faiblesses. Cet article introduit nouvelle une mesure de similarité document-requête pour PLSI, fondée sur lesmodèles de langue, où le problème du « folding-in » ne se pose pas. Nous comparons cette nouvelle similarité aux noyaux de Fisher, l’état de l’art en la matière. Nous présentons aussi une évaluation de PLSI sur un corpus de recherche d’information de près de 7500 documents et de plus d’un million d’occurrences de termes provenant de la collection TREC–AP, une taille considérable dans le cadre de PLSI.- Anthology ID:
- 2009.jeptalnrecital-court.45
- Volume:
- Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
- Month:
- June
- Year:
- 2009
- Address:
- Senlis, France
- Editors:
- Adeline Nazarenko, Thierry Poibeau
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA
- Note:
- Pages:
- 414–422
- Language:
- French
- URL:
- https://aclanthology.org/2009.jeptalnrecital-court.45
- DOI:
- Cite (ACL):
- Jean-Cédric Chappelier and Emmanuel Eckard. 2009. Utilisation de PLSI en recherche d’information Représentation des requêtes. In Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts, pages 414–422, Senlis, France. ATALA.
- Cite (Informal):
- Utilisation de PLSI en recherche d’information Représentation des requêtes (Chappelier & Eckard, JEP/TALN/RECITAL 2009)
- PDF:
- https://preview.aclanthology.org/nschneid-patch-4/2009.jeptalnrecital-court.45.pdf