@inproceedings{patry-langlais-2005-paradocs,
title = "Paradocs: un syst{\`e}me d{'}identification automatique de documents parall{\`e}les",
author = "Patry, Alexandre and
Langlais, Philippe",
booktitle = "Actes de la 12{\`e}me conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Articles longs",
month = jun,
year = "2005",
address = "Dourdan, France",
publisher = "ATALA",
url = "https://aclanthology.org/2005.jeptalnrecital-long.23",
pages = "221--230",
abstract = "Les corpus parall{\`e}les sont d{'}une importance capitale pour les applications multilingues de traitement automatique des langues. Malheureusement, leur raret{\'e} est le maillon faible de plusieurs applications d{'}int{\'e}r{\^e}t. Extraire de tels corpus duWeb est une solution viable, mais elle introduit une nouvelle probl{\'e}matique : il n{'}est pas toujours trivial d{'}identifier les documents parall{\`e}les parmi tous ceux qui ont {\'e}t{\'e} extraits. Dans cet article, nous nous int{\'e}ressons {\`a} l{'}identification automatique des paires de documents parall{\`e}les contenues dans un corpus bilingue. Nous montrons que cette t{\^a}che peut {\^e}tre accomplie avec pr{\'e}cision en utilisant un ensemble restreint d{'}invariants lexicaux. Nous {\'e}valuons {\'e}galement notre approche sur une t{\^a}che de traduction automatique et montrons qu{'}elle obtient des r{\'e}sultats sup{\'e}rieurs {\`a} un syst{\`e}me de r{\'e}f{\'e}rence faisant usage d{'}un lexique bilingue.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="patry-langlais-2005-paradocs">
<titleInfo>
<title>Paradocs: un système d’identification automatique de documents parallèles</title>
</titleInfo>
<name type="personal">
<namePart type="given">Alexandre</namePart>
<namePart type="family">Patry</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Philippe</namePart>
<namePart type="family">Langlais</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2005-jun</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs</title>
</titleInfo>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Dourdan, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les corpus parallèles sont d’une importance capitale pour les applications multilingues de traitement automatique des langues. Malheureusement, leur rareté est le maillon faible de plusieurs applications d’intérêt. Extraire de tels corpus duWeb est une solution viable, mais elle introduit une nouvelle problématique : il n’est pas toujours trivial d’identifier les documents parallèles parmi tous ceux qui ont été extraits. Dans cet article, nous nous intéressons à l’identification automatique des paires de documents parallèles contenues dans un corpus bilingue. Nous montrons que cette tâche peut être accomplie avec précision en utilisant un ensemble restreint d’invariants lexicaux. Nous évaluons également notre approche sur une tâche de traduction automatique et montrons qu’elle obtient des résultats supérieurs à un système de référence faisant usage d’un lexique bilingue.</abstract>
<identifier type="citekey">patry-langlais-2005-paradocs</identifier>
<location>
<url>https://aclanthology.org/2005.jeptalnrecital-long.23</url>
</location>
<part>
<date>2005-jun</date>
<extent unit="page">
<start>221</start>
<end>230</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Paradocs: un système d’identification automatique de documents parallèles
%A Patry, Alexandre
%A Langlais, Philippe
%S Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
%D 2005
%8 jun
%I ATALA
%C Dourdan, France
%G French
%F patry-langlais-2005-paradocs
%X Les corpus parallèles sont d’une importance capitale pour les applications multilingues de traitement automatique des langues. Malheureusement, leur rareté est le maillon faible de plusieurs applications d’intérêt. Extraire de tels corpus duWeb est une solution viable, mais elle introduit une nouvelle problématique : il n’est pas toujours trivial d’identifier les documents parallèles parmi tous ceux qui ont été extraits. Dans cet article, nous nous intéressons à l’identification automatique des paires de documents parallèles contenues dans un corpus bilingue. Nous montrons que cette tâche peut être accomplie avec précision en utilisant un ensemble restreint d’invariants lexicaux. Nous évaluons également notre approche sur une tâche de traduction automatique et montrons qu’elle obtient des résultats supérieurs à un système de référence faisant usage d’un lexique bilingue.
%U https://aclanthology.org/2005.jeptalnrecital-long.23
%P 221-230
Markdown (Informal)
[Paradocs: un système d’identification automatique de documents parallèles](https://aclanthology.org/2005.jeptalnrecital-long.23) (Patry & Langlais, JEP/TALN/RECITAL 2005)
ACL