Mani Ezzat


2011

2010

La constitution de ressources linguistiques est une tâche cruciale pour les systèmes d’extraction d’information fondés sur une approche symbolique. Ces systèmes reposent en effet sur des grammaires utilisant des informations issues de dictionnaires électroniques ou de réseaux sémantiques afin de décrire un phénomène linguistique précis à rechercher dans les textes. La création et la révision manuelle de telles ressources sont des tâches longues et coûteuses en milieu industriel. Nous présentons ici un nouvel algorithme produisant une grammaire d’extraction de relations entre entités nommées, de manière semi-automatique à partir d’un petit ensemble de phrases représentatives. Dans un premier temps, le linguiste repère un jeu de phrases pertinentes à partir d’une analyse des cooccurrences d’entités repérées automatiquement. Cet échantillon n’a pas forcément une taille importante. Puis, un algorithme permet de produire une grammaire en généralisant progressivement les éléments lexicaux exprimant la relation entre entités. L’originalité de l’approche repose sur trois aspects : une représentation riche du document initial permettant des généralisations pertinentes, la collaboration étroite entre les aspects automatiques et l’apport du linguiste et sur la volonté de contrôler le processus en ayant toujours affaire à des données lisibles par un humain.