OGMIOS : une plate-forme d’annotation linguistique de collection de documents issus du Web

Thierry Hamon, Julien Derivière, Adeline Nazarenko


Abstract
L’un des objectifs du projet ALVIS est d’intégrer des informations linguistiques dans des moteurs de recherche spécialisés. Dans ce contexte, nous avons conçu une plate-forme d’enrichissement linguistique de documents issus du Web, OGMIOS, exploitant des outils de TAL existants. Les documents peuvent être en français ou en anglais. Cette architecture est distribuée, afin de répondre aux contraintes liées aux traitements de gros volumes de textes, et adaptable, pour permettre l’analyse de sous-langages. La plate-forme est développée en Perl et disponible sous forme de modules CPAN. C’est une structure modulaire dans lequel il est possible d’intégrer de nouvelles ressources ou de nouveaux outils de TAL. On peut ainsi définir des configuration différentes pour différents domaines et types de collections. Cette plateforme robuste permet d’analyser en masse des données issus du web qui sont par essence très hétérogènes. Nous avons évalué les performances de la plateforme sur plusieurs collections de documents. En distribuant les traitements sur vingt machines, une collection de 55 329 documents du domaine de la biologie (106 millions de mots) a été annotée en 35 heures tandis qu’une collection de 48 422 dépêches relatives aux moteurs de recherche (14 millions de mots) a été annotée en 3 heures et 15 minutes.
Anthology ID:
2007.jeptalnrecital-poster.10
Volume:
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Month:
June
Year:
2007
Address:
Toulouse, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
103–112
Language:
French
URL:
https://aclanthology.org/2007.jeptalnrecital-poster.10
DOI:
Bibkey:
Cite (ACL):
Thierry Hamon, Julien Derivière, and Adeline Nazarenko. 2007. OGMIOS : une plate-forme d’annotation linguistique de collection de documents issus du Web. In Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters, pages 103–112, Toulouse, France. ATALA.
Cite (Informal):
OGMIOS : une plate-forme d’annotation linguistique de collection de documents issus du Web (Hamon et al., JEP/TALN/RECITAL 2007)
Copy Citation:
PDF:
https://preview.aclanthology.org/update-css-js/2007.jeptalnrecital-poster.10.pdf