Benoit Gaillard

Also published as: Benoît Gaillard


2014

2013

2011

2010

Le travail présenté dans cet article s’inscrit dans le thème de l’acquisition automatique de ressources sémantiques s’appuyant sur les données de Wikipedia. Nous exploitons le graphe des catégories associées aux pages de Wikipedia à partir duquel nous extrayons une hiérarchie de catégories parentes, sémantiquement et thématiquement liées. Cette extraction est le résultat d’une stratégie de plus court chemin appliquée au treillis global des catégories. Chaque page peut ainsi être représentée dans l’espace de ses catégories propres, ainsi que des catégories parentes. Nous montrons la possibilité d’utiliser cette ressource pour deux applications. La première concerne l’indexation et la classification des pages de Wikipedia. La seconde concerne la désambiguïsation dans le cadre d’un traducteur de requêtes français/anglais. Ce dernier travail a été réalisé en exploitant les catégories des pages anglaises.
Cet article s’inscrit dans le domaine de la recherche d’information multilingue. Il propose une méthode de traduction automatique de requêtes basée sur Wikipédia. Une phase d’analyse permet de segmenter la requête en syntagmes ou unités lexicales à traduire en s’appuyant sur les liens multilingues entre les articles de Wikipédia. Une deuxième phase permet de choisir, parmi les traductions possibles, celle qui est la plus cohérente en s’appuyant sur les informations d’ordre sémantique fournies par les catégories associées à chacun des articles de Wikipédia. Cet article justifie que les données issues de Wikipédia sont particulièrement pertinentes pour la traduction de requêtes, détaille l’approche proposée et son implémentation, et en démontre le potentiel par la comparaison du taux d’erreur du prototype de traduction avec celui d’autres services de traduction automatique.