Abstract
Pour des raisons variées, diverses communautés se sont intéressées aux corpus multilingues. Parmi ces corpus, les textes parallèles sont utilisés aussi bien en terminologie, lexicographie ou comme source d’informations pour les systèmes de traduction par l’exemple. L’Union Européenne, qui a entraîné la production de document législatif dans vingtaine de langues, est une des sources de ces textes parallèles. Aussi, avec le Web comme vecteur principal de diffusion de ces textes parallèles, cet objet d’étude est passé à un nouveau statut : celui de document. Cet article décrit un système d’alignement prenant en compte un grand nombre de langues simultanément (> 2) et les caractéristiques structurelles des documents analysés.- Anthology ID:
- 2007.jeptalnrecital-recitalposter.4
- Volume:
- Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)
- Month:
- June
- Year:
- 2007
- Address:
- Toulouse, France
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA
- Note:
- Pages:
- 367–376
- Language:
- French
- URL:
- https://aclanthology.org/2007.jeptalnrecital-recitalposter.4
- DOI:
- Cite (ACL):
- Romain Brixtel. 2007. Extraction endogène d’une structure de document pour un alignement multilingue. In Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters), pages 367–376, Toulouse, France. ATALA.
- Cite (Informal):
- Extraction endogène d’une structure de document pour un alignement multilingue (Brixtel, JEP/TALN/RECITAL 2007)
- PDF:
- https://preview.aclanthology.org/starsem-semeval-split/2007.jeptalnrecital-recitalposter.4.pdf