Extraction endogène d’une structure de document pour un alignement multilingue

Romain Brixtel


Abstract
Pour des raisons variées, diverses communautés se sont intéressées aux corpus multilingues. Parmi ces corpus, les textes parallèles sont utilisés aussi bien en terminologie, lexicographie ou comme source d’informations pour les systèmes de traduction par l’exemple. L’Union Européenne, qui a entraîné la production de document législatif dans vingtaine de langues, est une des sources de ces textes parallèles. Aussi, avec le Web comme vecteur principal de diffusion de ces textes parallèles, cet objet d’étude est passé à un nouveau statut : celui de document. Cet article décrit un système d’alignement prenant en compte un grand nombre de langues simultanément (> 2) et les caractéristiques structurelles des documents analysés.
Anthology ID:
2007.jeptalnrecital-recitalposter.4
Volume:
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)
Month:
June
Year:
2007
Address:
Toulouse, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
367–376
Language:
French
URL:
https://aclanthology.org/2007.jeptalnrecital-recitalposter.4
DOI:
Bibkey:
Cite (ACL):
Romain Brixtel. 2007. Extraction endogène d’une structure de document pour un alignement multilingue. In Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters), pages 367–376, Toulouse, France. ATALA.
Cite (Informal):
Extraction endogène d’une structure de document pour un alignement multilingue (Brixtel, JEP/TALN/RECITAL 2007)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingestion-script-update/2007.jeptalnrecital-recitalposter.4.pdf